Visual Instruction Tuning (LLaVA paper) 논문 정리

2025. 5. 10. 12:44 · LLM 관련 논문 정리
목차
  1. Abstract
  2. 3. GPT-assisted Visual Instruction Data Generation
  3. 4. Visual Inst Tuning
  4. 4.1 구조
  5. 4.2 Training

https://arxiv.org/pdf/2304.08485

 

많이 사용하는 비전-언어모델 튜닝에 많이 사용된다.

 

Abstract

machine 이 만들어낸 instruction following 데이터셋은 새로운 task 에서 zero shot 성능을 강화할 수 있었지만, multi-modal 분야에서는 비교적 덜 연구되어왔다.

 

이 논문에서는 처음으로 language-only GPT-4 모델을 이용하여 언어-이미지 멀티모달 instruction 데이터셋을 생성한다.

 

이 생성된 데이터를 사용하여 LLaVA: Large Language and Vision Assistant 를 소개한다. 이는 end-to-end로, 학습된 언어모델에 vision encoder 를 연결하여 general-purpose 비전-언어모델을 만든다.

 

평가를 위해 2가지 evaluation benchmark 를 만들었다.

 

GPT-4 와 비교하여 꽤 좋은 실험 결과를 얻었다. 생성한 visual instruction tuning data, our model, 와 code 는 public 이다.

 

3. GPT-assisted Visual Instruction Data Generation

Visual Instruction Tuning

 

GPT 를 프롬프팅하기 위해 context 로 이미지 설명 캡션이랑 bounding box 좌표가 컨텍스트로 주어진다.

 

그리고 그에 대한 3가지 response 를 얻는다. GPT 에서는 이미지를 따로 주지는 않는다.**

 

4. Visual Inst Tuning

4.1 구조

Visual Instruction Tuning

 

LLM 모델로는 Vicuna fϕ(·) 를 사용,

 

Xv 는 이미지 input 으로, visual encoder 로는 CLIP 의 ViT-L/14 를 사용. => Zv = g(Xv)

여기서도 text embedding space 에 이미지 임베딩을 연결하기 위해 linear layer W를 사용한다.

 

 

Hv 는 visual token 이다. (하지만 기본적인 linear layer 말고 더 복잡한 매핑을 할 수 있다, future work)

 

4.2 Training

Visual Instruction Tuning

 

이미지 인풋 Xv 에 대한 멀티턴 대화 데이터 (X1q, X1a, · · · , XTq, XTa) 를 생성한다. (T 는 멀티턴 total 개수)

 

멀티턴의 모든 답변을 assistant 의 response 로 처리하고 t번째 Xt_instruct = instruction 을 아래 식과 같이 정리한다.

 

Visual Instruction Tuning

 

이는 table 2에서 설명한 multi-modal instruction 시퀀스의 통합 형식이다.

 

기존의 auto-regressive 학습을 통해 LLM 을 instruction-tuning 한다.

 

길이 L 인 타겟 Xa 에 대한 probability 는 아래 식과 같다. θ 는 trainable parameter,

 

Visual Instruction Tuning

 

** 위 그림 설명 : 2 turn conversation 에 대한 설명이고, 은 '###' 이다. (Vicuna-v0 사용)

 

위 그림에서 초록색 부분만 loss 를 계산한다.

 

Stage 1: Pre-training for Feature Alignment

데이터셋은 CC3M 에서 595K 개의 image-text pairs 를 필터링한다. 이 데이터를 사용하여 3번의 데이터 생성 방법에 따라 instruction-following 데이터로 변환된다.

 

각 샘플은 single turn 대화로 처리된다.

 

X_instruct 를 만들기 위해 이미지 Xv와 질문 Xq 를 랜덤으로 샘플링한다. 이때 Xq는 assistant 에 이미지를 간단하게 설명해달라고 하는 언어 명령어이다. Xa 는 기존 데이터셋의 원래 있던 캡션으로, ground-truth 로 사용된다.

 

training 에서는 LLM 과 visual encoder 둘 다 freeze 하고 projection 파라미터 θ 만 학습시킨다.

 

Stage 2: Fine-tuning End-to-End

항상 visual encoder 는 freeze 하고, projection layer 와 LLM 만 업데이트한다.

'LLM 관련 논문 정리' 카테고리의 다른 글

Learning transferable visual models from Natural language supervision 논문 정리  (0) 2025.05.10
E5-V: Universal Embeddings with Multimodal Large Language Models 논문 정리  (0) 2025.05.10
RAGAS 라이브러리 평가지표 설명  (0) 2025.05.10
Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models (EEVE) 논문 정리  (0) 2025.05.05
Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum  (0) 2024.11.16
  1. Abstract
  2. 3. GPT-assisted Visual Instruction Data Generation
  3. 4. Visual Inst Tuning
  4. 4.1 구조
  5. 4.2 Training
'LLM 관련 논문 정리' 카테고리의 다른 글
  • Learning transferable visual models from Natural language supervision 논문 정리
  • E5-V: Universal Embeddings with Multimodal Large Language Models 논문 정리
  • RAGAS 라이브러리 평가지표 설명
  • Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models (EEVE) 논문 정리
섬섬옥수수
섬섬옥수수
컴공 AI 개발자가 되기 위한 노역입니다
섬섬옥수수
아날로그 인간의 컴공 되기
섬섬옥수수
전체
오늘
어제
  • 분류 전체보기
    • 백준 단계별 코딩 테스트
    • KB 논문 정리
    • Memory network 논문 정리
    • LLM 관련 논문 정리
    • Python 및 Torch 코딩 이모저모
    • Clustering 관련 논문 정리
    • 머신러닝 이모저모
    • 암호학

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 티스토리챌린지
  • GIT
  • 인공지능융합기반시스템개론
  • 코딩테스트
  • 문제풀이
  • 이화여대
  • ragas
  • 소프트웨어
  • eeve
  • constituency tree
  • CUDA
  • vocabulary expansion
  • 백준
  • 오블완
  • 심재형
  • e5-v
  • efficient and effective vocabulary expansion towards multilingual large language models
  • 하드웨어
  • PEFT
  • dependency tree

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.0
섬섬옥수수
Visual Instruction Tuning (LLaVA paper) 논문 정리
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.