Studies/Vision and Language (Multimodal)
CLIP(Contrastive Language-Image Pre-training) 파헤치기!
목차 Multi-modal이란 여러 도메인을 사용하는 것을 말한다. 특히 NLP(language, text)분야와 CV(vision, image)분야를 넘나들며 딥러닝을 적용하는 것이 요즘 트렌드인데, image captioning, text-to-image generation, 심지어 3D Vision까지 확장하여 Scene captioning, text-to-shape generation 등 다양한 task가 등장하고 있다. 최근 chat-GPT를 발표한 OpenAI 회사에서 2021년 ICLR 학회에 이 분야의 base로 많이 활용되는 CLIP이라는 모델을 발표한 논문(Radford et al., Learning Transferable Visual Models From Natural Language..
2023. 6. 8. 03:04
최근댓글