e5-v

E5-V: Universal Embeddings with Multimodal Large Language Models 논문 정리

2025.05.10· LLM 관련 논문 정리

E5-V: Universal Embeddings with Multimodal Large Language Modelshttps://arxiv.org/pdf/2407.12580Abstract ** Multimodal large language models (MLLMs)** 은 비전 및 언어 이해에 매우 큰 발전이지만, 이를 이용한 멀티모달 정보 를 표현하는 데에는 (임베딩) 많은 연구가 이루어지지 않았다. 이 논문에서는 새로운 구조인 E5-V 를 제안하여 **universal multimodal embeddings** 을 하도록 한다. 이 방법은 파인튜닝 없이도 서로 다른 modality(이미지나 텍스트 등) 의 input 사이 갭을 줄일 수 있다. 이는 이미지-텍스트 pair 로 학습하는 기존의 멀티모달 ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

e5-v

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역