home
📚

멀티모달 문서 검색을 위한 Embedding 모델

Author
박우명 / CDO & Head of Research
Category
Paper Review
Tags
Multimodal
Embedding
Published
2024/07/25
5 more properties

도입

LLM이 가진 한계 (최신 정보 부족, Private 데이터에 대한 지식이 없음 등)를 극복하고 기업이 내부 데이터를 활용하여 LLM 기반 어플리케이션을 만들 수 있는 가장 유망한 방법으로 최근 Retrieval-Augmented Generation(RAG) 방법을 널리 활용하고 있으며, 이에 따라 주어진 질의 해결에 적합한 문서를 검색해오기 위한 뛰어난 Embedding Model에 대한 관심이 점차 높아지고 있음
그러나 고객이 사용하는 데이터는 단순 Text로만 이루어진 것이 아니라 다양한 형태의 이미지를 처리하고 이해해야 하는 경우가 많으며, 따라서 이미지와 텍스트를 동시에 이해할 수 있는 Multi-modal Embedding Model이 필요함
이 아티클에서 소개할 E5-V는 LLM을 통하여 Text Embedding Model을 만드는 방법을 확장하여 Vision Language Model(VLM)으로부터 Multi-modal Embedding Model을 만드는 방법을 제안하고 있음
리뷰 논문 : https://arxiv.org/abs/2407.12580 (by Microsoft)

개요

한줄 요약 : 기존에 존재하는 VLM을 활용하여 Image-text Paired 데이터가 아닌 텍스트 데이터로만 파인튜닝하여 뛰어난 Multi-modal Embedding Model을 만들 수 있음
LLM 기반으로 embedding model을 만들 때 최근 널리 사용하는 방식(https://arxiv.org/abs/2307.16645)을 확장하는 방법을 제안. 입력 텍스트 혹은 이미지 등을 넣고 적절한 프롬프트를 붙인 후 마지막 Token의 Hidden Representation을 Embedding Vector로 사용하는 방식
텍스트 데이터만 사용한 Contrastive Learning으로 파인튜닝했을 때 충분히 뛰어난 Multi-Modal Embedding Model을 만들 수 있음을 보여준 점이 주요 Contribution이라고 생각
Text-image Retrieval, Image-image Retrieval, Text Embedding 측면에서 모두 SOTA이거나 SOTA 에 비견되는 뛰어난 성능을 보여줌

Method

백본 모델 : LLaVA-NeXT-8B (LLaMA-3-8B + CLIP ViT-L), 뒤에 ablation study를 위해 Phi-3, LLaVA-1.6B (Mistral) 도 사용
학습
데이터 : NLI, 273k Sentence Pairs
방법 : Constrastive Learning, QLoRA, 768 Batch Size, 1000 Steps
Prompt : "<text> \n Summary above sentence in one word:". <text>에 변환할 입력 문장이 들어가가며 마지막 토큰의 Hidden Representation을 Embedding Vector로 학습

Results

Text-image Retrieval
Zero-shot Image Retrieval과 Text Retrieval 성능 측정
비교 대상 모델 대비 꽤 괜찮은 성능을 보여줌
EVA-02-CLIP 5B의 경우 4.4B 크기의 Image Encoder를 사용하며 대량의 Image-text Pairs 데이터로 튜닝한 모델
반면 E5-V의 경우 CLIP ViT-L 수준의 Image Encoder를 사용
사용한 벤치마크 데이터 : Flickr30K, COCO
Prompt
Performance
Composed Image Retrieval
원본 이미지와 텍스트로 표현된 지시문(이미지 중 어떤 부분을 수정하라는 내용)을 입력으로 받음. 수정의 결과와 가장 비슷한 최종 이미지를 검색하는 문제
비교 대상 모델 대비 거의 모든 점수에서 가장 뛰어난 성능을 달성
사용한 벤치마크 데이터 : CIRR, FashionIQ
Prompt
Performance
Image-Image Retrieval
Text-Image Retrieval 문제에서 Text 부분을 아래와 같이 이미지로(Arial font with 40 pixels, 800x400 resolution) 만든 후 동일한 task 수행
비교 대상 모델은 이미지로 된 텍스트를 제대로 이해하지 못하였으나 E5-V의 경우 텍스트 입력을 사용했을 때 대비 약 80~90% 정도 수준으로 꽤 효과적인 모습을 보여줌.
사용한 벤치마크 데이터 : CIRR, FashionIQ
Prompt : "<image> \n Summary above image in one word:"
Performance
Text Sentence Embeddings
사용한 벤치마크 데이터 : STS
Prompt : "<text> \n Summary above sentence in one word:"
Performance
참고) MTEB 상위권 모델들과의 STS 성능 비교
모델명
STS12
STS13
STS14
STS15
STS16
SICK-R
Avg.
E5-V
80.03
89.94
85.67
89.09
85.89
83.51
85.69
stella_en_1.5B_v5 (24.7.25 현재 1위)
80.09
89.68
85.07
89.39
87.15
82.89
85.71
voyage-lite-02-instruct (STS 쪽 1위)
86.46
87.76
86.6
90.1
86.39
78.44
85.96
google-gecko.text-embedding (Google)
77.59
90.36
85.25
89.66
87.34
81.93
85.36
sfr-embedding-mistral (Salesforce)
79.47
89.15
84.93
90.74
87.82
82.92
85.84
e5-mistral-7b-instruct
79.66
88.43
84.54
90.43
87.68
82.64
85.56
NV-Embed-v1 (Nvidia)
76.22
86.3
82.09
87.24
84.77
82.8
83.24
Cohere-embed-english-v3.0 (Cohere)
74.37
85.2
80.98
89.23
84.67
81.27
82.62
text-embedding-3-large (OpenAI)
72.84
86.1
81.15
88.49
85.08
79.00
82.11

Further Analysis

Tuning 및 프롬프트에 따른 성능 분석
어떤 프롬프트를 사용하는지에 매우 민감한 모습을 보임
현재 사용하는 프롬프트는 별도 파인튜닝을 하지 않아도 어느 정도 Representation 능력이 존재하나 비교 대상 다른 두 방법은 현저히 저하됨
파인튜닝하면 세 방법 모두 꽤 높은 수준으로 성능이 향상되지만 제안하는 프롬프트가 가장 효과가 좋음
Embedding Vector의 분포를 살펴보면 비교 대상의 다른 2가지 방법은 텍스트와 이미지의 Embedding이 여전히 따로 놀고 있으나 제안 방법은 잘 섞여 있는 것을 확인할 수 있음
이는 LLM의 뛰어난 Instruction Following 능력을 적절히 잘 활용할 수 있는 프롬프트를 사용하기 때문인 것으로 보임
또한, 그렇기 떄문에 적절한 프롬프트를 사용하여 다양한 케이스에 대한 좋은 Multi-modal Embedding을 생성하는 일반화 능력이 존재한다고 볼 수 있음
Single Modality Training 효과 분석
비교 대상 Multi-modal 학습 데이터 : CC3M 558K text-image pairs
텍스트에 대해서만 튜닝한 것이 학습 시간도 거의 4% 수준(34.9h vs 1.5h; V100 32장 기준)이고 성능도 더 뛰어남
사용 백본 모델에 따른 성능 비교
비교 대상 모델 모두에서 제안 방법의 효과를 확인

Discussion

최근 Foundation Model의 연구 방향이 LLM에서 Multi-modal LLM으로 중심이 넘어간 것과 마찬가지로 Embedding Model의 경우에도 Multi-modal Embedding에 대한 관심이 점차 커지고 있는 추세임
특히 이미 뛰어난 능력을 가진 Visual Foundation Model의 능력을 활용할 수 있는 방법론은 앞으로도 계속 각광을 받을 것으로 판단하며, E5-V에서 제안한 텍스트 데이터만으로 파인튜닝하여 고품질의 Multi-modal Embedding을 만들 수 있는 방법은 꽤 의미가 있고 흥미로운 접근이라 생각함
다만, 텍스트의 경우에도 LLM 기반의 Embedding은 모델이 크고 연산하는데 비용 및 시간이 많이 걸리는 단점이 있어서 실용적인 측면에서 여전히 의문이 존재하는 상황으로 E5-V와 같은 방법에서도 동일한 문제가 존재함
따라서 VLM을 활용한 연구와 Encoder 계열의 경량 모델의 연구가 당분간은 동시에 진행될 것으로 예상함