E5-V: Universal Embeddings with Multimodal Large Language Models 논문 정리

2025. 5. 10. 12:18 · LLM 관련 논문 정리
목차
  1. Abstract
  2. 2. Related Work
  3. 2.1 Multimodal Large Language Models
  4. 2.2 Multimodal Embeddings
  5. 3. E5-V
  6. 3.1 Unifying Multimodal Embeddings
  7. 3.2 Single Modality Training
  8. 4. Experiments
  9. 4.1 Text-Image Retrieval

E5-V: Universal Embeddings with Multimodal Large Language Models

https://arxiv.org/pdf/2407.12580

Abstract

 

E5-V: Universal Embeddings with Multimodal Large Language Models



** Multimodal large language models (MLLMs)** 은 비전 및 언어 이해에 매우 큰 발전이지만, 이를 이용한 멀티모달 정보 를 표현하는 데에는 (임베딩) 많은 연구가 이루어지지 않았다.

이 논문에서는 새로운 구조인 E5-V 를 제안하여 **universal multimodal embeddings** 을 하도록 한다.

이 방법은 파인튜닝 없이도 서로 다른 modality(이미지나 텍스트 등) 의 input 사이 갭을 줄일 수 있다. 이는 이미지-텍스트 pair 로 학습하는 기존의 멀티모달 학습보다 training costs를 95% 까지 줄였고, 멀티모달 학습데이터 수집 필요를 없앴다.

 

2. Related Work

 

2.1 Multimodal Large Language Models

 

MLLMs 는 멀티모달 LLM 이다. BLIP, KOSMOS, LLaMA-Adapter, LLaVA 등

 

2.2 Multimodal Embeddings

 

CLIP 은 multimodal embeddings 의 시초다. text-image retrieval 에서 좋은 성능을 나타낸다.
이미지와 텍스트에 대해 서로 다른 인코더를 사용하여 contrastive 학습으로 align 한다. 

CLIP 은 모델 framework 로 인해 몇 가지 한계가 있는데, 첫 번째는 CLIP 의 텍스트 인코더가 짧은 이미지 캡션만 학습해서 복잡한 텍스트에 대해서는 low capacity를 보인다는 것이다. 그래서 긴 문장에 대한 검색은 성능의 한계가 있다.

또한 서로 분리되어있는 이미지와 텍스트 인코더 때문에 composed image retrieval 과 같은 뭐지,, 엄청 인접해있는? 관련있는 이미지-텍스트에 대해서는 성능이 낮다.

universal multimodal embedding 태스크에는 UNIIR (CLIP을 파인튜닝한,) 라는 연구가 있다. visual 과 텍스트 정보를 fuse 한다.

또한 VISTA 나 UniVL-DR는 텍스트 인코더에 CLIP 출력값을 더 넣어준다. 하지만 이는 다른 단점도 존재한다. (생략)

 

3. E5-V

 

3.1 Unifying Multimodal Embeddings

 

CLIP 과 같은 모달리티 임베딩 연구들에서는 이미지와 텍스트 사이에 modality gap 이 존재하는데 이는 성능에 안좋은 영향을 준다고 설명한다. 비슷하게 이 논문에서는 MLLM 에서 비슷한 문제점이 나타나는 것을 확인하였다.

E5-V: Universal Embeddings with Multimodal Large Language Models



위 그림 3.a 는 COCO 데이터셋의 이미지-캡션을 LLaVA-NeXT-8B 모델의 last token embeddings을 뽑아 PCA 로 표한한 그림이다.

CLIP 과 비교하였을 때 MLLM 은 이미지와 텍스트를 같은 인코더로 표현하긴 하지만 임베딩은 modality gap이 있음을 확인하였다.

E5-V: Universal Embeddings with Multimodal Large Language Models


위 그림은 멀티 모달 임베딩을 위해 E5-V를 Single modality를 학습시킨 것이다. 프롬프트로 멀티모달 표현을 같은 임베딩 공간에 표현한다. 

멀티모달 임베딩을 unify 하기 위해 MLLM 에 prompt-based 표현 방법을 제안한다.

즉, 멀티모달 입력을 단어로 표현하도록 MLLM 에게 inst 를 주는 것이다.

이 때 아래와 같은 프롬프트를 사용한다.

`<text> \n Summary of the above sentence in one word:`

`<image> \n Summary above image in one word:`

그림 3.b 를 보면 이렇게 프롬프트를 사용하여 이미지를 표현하면 텍스트와 이미지 사이 modality gap 을 없앨 수 있다.

프롬프트 디자인은 멀티모달 input 의 의미를 추출하는 부분과 이를 'in one word' 라는 표현을 사용하여 next token embeddings 에 의미를 압축하고 멀티모달 임베딩으로 통합한다.

 

3.2 Single Modality Training

 

멀티모달 임베딩을 학습하기 위해 

임베딩에 modality gap 이 없기 때문에 텍스트 쌍에 대해서만 학습하여 단일 모달리티 표현 기능을 멀티 모달로 변환할 수 있다.

그러므로 멀티모달 training data 나 이미지와 합성된 input 에 의존하지 않는다.

E5-V 는 MLLMs을 contrastive learning 을 사용하여 텍스트 쌍을 학습한다. 학습 동안은 visual 입력이 들어가지 않고, MLLM 에서 modality encoder 와 projector 를 뺀 LLM 부분만 학습시킨다.

멀티모달 데이터셋과 관련없는 NLI dataset의 sentence pairs (x_i, x_i^+, x_i^−) 를 사용한다. 각각 input, pos, neg 이다.

위에 있는 프롬프트인 `<text> \nSummary above sentence in one word:` 를 사용하여 위 의 sentence pair 를  (hi, h+i, h−i) 임베딩으로 바꾼다.

그리고 아래 objective 식으로 나타낼 수 있다.

E5-V: Universal Embeddings with Multimodal Large Language Models



위 식에서 τ = temperature hyperparameter, N = batch size

멀티모달 학습과 비교하여 single modality training은 멀티모달 검색 task 에서 더 좋은 성능을 얻고, 학습 cost 도 훨신 적었다.(Table 7)

-----
** 학습에 사용한 Dataset :  Simcse: Simple contrastive learning of sentence embeddings.

E5-V: Universal Embeddings with Multimodal Large Language Models



-----

4. Experiments

 

E5-v 의 backbone 으로 LLaMA-3 8B 를 기반으로 한 LLaVA-NeXT-8B를 사용했고, CLIP ViT-L 를 visual encoder 로 사용했다.
QLora 사용.

contrastive learning 에서는 마지막 token 임베딩을 임베딩으로 사용.

 

4.1 Text-Image Retrieval

 

zero-shot image 및 text retrieval

E5-V: Universal Embeddings with Multimodal Large Language Models



 Flickr30K 와 COCO 벤치마크 데이터셋을 사용하여 

* coco dataset : 330K 이미지 데이터셋, object detection, caption 등 데이터셋
* Flickr30K : 위와 비슷한 bb 와 caption이 있는 이미지 데이터셋

'LLM 관련 논문 정리' 카테고리의 다른 글

Visual Instruction Tuning (LLaVA paper) 논문 정리  (0) 2025.05.10
Learning transferable visual models from Natural language supervision 논문 정리  (0) 2025.05.10
RAGAS 라이브러리 평가지표 설명  (0) 2025.05.10
Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models (EEVE) 논문 정리  (0) 2025.05.05
Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum  (0) 2024.11.16
  1. Abstract
  2. 2. Related Work
  3. 2.1 Multimodal Large Language Models
  4. 2.2 Multimodal Embeddings
  5. 3. E5-V
  6. 3.1 Unifying Multimodal Embeddings
  7. 3.2 Single Modality Training
  8. 4. Experiments
  9. 4.1 Text-Image Retrieval
'LLM 관련 논문 정리' 카테고리의 다른 글
  • Visual Instruction Tuning (LLaVA paper) 논문 정리
  • Learning transferable visual models from Natural language supervision 논문 정리
  • RAGAS 라이브러리 평가지표 설명
  • Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models (EEVE) 논문 정리
섬섬옥수수
섬섬옥수수
컴공 AI 개발자가 되기 위한 노역입니다
섬섬옥수수
아날로그 인간의 컴공 되기
섬섬옥수수
전체
오늘
어제
  • 분류 전체보기
    • 백준 단계별 코딩 테스트
    • KB 논문 정리
    • Memory network 논문 정리
    • LLM 관련 논문 정리
    • Python 및 Torch 코딩 이모저모
    • Clustering 관련 논문 정리
    • 머신러닝 이모저모
    • 암호학

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • GIT
  • dependency tree
  • 심재형
  • 인공지능융합기반시스템개론
  • constituency tree
  • 문제풀이
  • CUDA
  • vocabulary expansion
  • 소프트웨어
  • PEFT
  • e5-v
  • eeve
  • 티스토리챌린지
  • 코딩테스트
  • 오블완
  • 하드웨어
  • efficient and effective vocabulary expansion towards multilingual large language models
  • 백준
  • ragas
  • 이화여대

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.0
섬섬옥수수
E5-V: Universal Embeddings with Multimodal Large Language Models 논문 정리
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.