'Studies/Vision and Language (Multimodal)' 카테고리의 글 목록

Studies/Vision and Language (Multimodal)

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (2)

목차 Multi-modal, 특히 vision-language model에 관심을 갖게 되면서 관련 논문을 찾아보던 중, task-agnostic, modality-agnostic한 다양한 input을 다룰 수 있는 모델인 Perceiver와, 이에 이어 output까지 원하는 형태로 만들 수 있는 Perceiver IO를 접하게 되었다. Multi-modal 분야 뿐만 아니라 backbone으로(혹은 아이디어를 활용하여 구조를 변형하여) 훨씬 다양하게 활용될 수 있을 것 같아 두 아키텍쳐를 다룬 논문을 읽고 그 내용을 합쳐서 정리해보려 한다. 먼저, Transformer의 핵심인 self-attention과 cross-attention이 여기서도 핵심 개념이기 때문에, 이를 다룬 글을 읽어보는 것을 추..

2023. 7. 28. 15:17

Studies/Vision and Language (Multimodal)

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (1)

목차 Multi-modal, 특히 vision-language model에 관심을 갖게 되면서 관련 논문을 찾아보던 중, task-agnostic, modality-agnostic한 다양한 input을 다룰 수 있는 모델인 Perceiver와, 이에 이어 output까지 원하는 형태로 만들 수 있는 Perceiver IO를 접하게 되었다. Multi-modal 분야 뿐만 아니라 backbone으로(혹은 아이디어를 활용하여 구조를 변형하여) 훨씬 다양하게 활용될 수 있을 것 같아 두 아키텍쳐를 다룬 논문을 읽고 그 내용을 합쳐서 정리해보려 한다. 먼저, Transformer의 핵심인 self-attention과 cross-attention이 여기서도 핵심 개념이기 때문에, 이를 다룬 글을 읽어보는 것을 추..

2023. 7. 26. 22:22

Studies/Vision and Language (Multimodal)

CLIP(Contrastive Language-Image Pre-training) 파헤치기!

목차 Multi-modal이란 여러 도메인을 사용하는 것을 말한다. 특히 NLP(language, text)분야와 CV(vision, image)분야를 넘나들며 딥러닝을 적용하는 것이 요즘 트렌드인데, image captioning, text-to-image generation, 심지어 3D Vision까지 확장하여 Scene captioning, text-to-shape generation 등 다양한 task가 등장하고 있다. 최근 chat-GPT를 발표한 OpenAI 회사에서 2021년 ICLR 학회에 이 분야의 base로 많이 활용되는 CLIP이라는 모델을 발표한 논문(Radford et al., Learning Transferable Visual Models From Natural Language..

2023. 6. 8. 03:04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (2)

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (1)

CLIP(Contrastive Language-Image Pre-training) 파헤치기!

전체 카테고리

블로그 인기글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (2)

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (1)

CLIP(Contrastive Language-Image Pre-training) 파헤치기!

전체 카테고리

최근 글

최근댓글

블로그 인기글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (2)

Perceiver and Perceiver IO : modality, dataset, task 등에 상관 없는 일반적인 input을 다루어 원하는 output을 내는모델! (1)