https://arxiv.org/pdf/2304.08485 많이 사용하는 비전-언어모델 튜닝에 많이 사용된다. Abstractmachine 이 만들어낸 instruction following 데이터셋은 새로운 task 에서 zero shot 성능을 강화할 수 있었지만, multi-modal 분야에서는 비교적 덜 연구되어왔다. 이 논문에서는 처음으로 language-only GPT-4 모델을 이용하여 언어-이미지 멀티모달 instruction 데이터셋을 생성한다. 이 생성된 데이터를 사용하여 LLaVA: Large Language and Vision Assistant 를 소개한다. 이는 end-to-end로, 학습된 언어모델에 vision encoder 를 연결하여 general-purpose 비전-언어모..
CLIP papaer https://arxiv.org/pdf/2103.00020 Abstract현 컴퓨터 비전 시스템은 시각적 개념을 추가로 학습시키기 위해서 항상 새로운 데이터가 필요하다는 단점이 있다. 이미지에 대한 raw text 를 학습하는 것(아마도 캡션) 은 유망한 방법이다. 어떤 캡션이 어떤 이미지를 설명하는 것인지 를 학습하는 pre-training 방법이 이미지 representation 을 학습하는 데에 얼마나 효율적인지 보인다. 약 400 million (image, text) pairs 데이터셋을 사용한다. pre-training 이후 자연어를 이용하여 이미 학습되었거나 새로운(downstream task) 비전 개념에 대해 모델이 알 수 있다. OCR, action recognit..
E5-V: Universal Embeddings with Multimodal Large Language Modelshttps://arxiv.org/pdf/2407.12580Abstract ** Multimodal large language models (MLLMs)** 은 비전 및 언어 이해에 매우 큰 발전이지만, 이를 이용한 멀티모달 정보 를 표현하는 데에는 (임베딩) 많은 연구가 이루어지지 않았다. 이 논문에서는 새로운 구조인 E5-V 를 제안하여 **universal multimodal embeddings** 을 하도록 한다. 이 방법은 파인튜닝 없이도 서로 다른 modality(이미지나 텍스트 등) 의 input 사이 갭을 줄일 수 있다. 이는 이미지-텍스트 pair 로 학습하는 기존의 멀티모달 ..
Faithfulness : answer 는 검색된 context 에 기반해야한다. : 이를 위해 answer 에서 statement 를 뽑아 각 statement가 context 로부터 추론되었는지 binary 로 점수를 매기고, 평균을 낸다. answer relevance : 생성된 answer 가 질문을 해결할 수 있어야 한다. : 이를 위해 LLM 이 생성한 답변에서 질문을 역생성하고 그 질문와 오리지널 질문을 서로 임베딩 유사도를 구한다. context precision : 여러 개 청크에서 ground truth 답변과 관련된 context 가 상위에 있는지 평가한다. context recall : 검색된 context 가 gt 답변과 얼마나 일치하는지 평가한다. ..