📚

멀티모달 문서 검색을 위한 Embedding 모델

Author

박우명 / CDO & Head of Research

도입

•

LLM이 가진 한계 (최신 정보 부족, Private 데이터에 대한 지식이 없음 등)를 극복하고 기업이 내부 데이터를 활용하여 LLM 기반 어플리케이션을 만들 수 있는 가장 유망한 방법으로 최근 Retrieval-Augmented Generation(RAG) 방법을 널리 활용하고 있으며, 이에 따라 주어진 질의 해결에 적합한 문서를 검색해오기 위한 뛰어난 Embedding Model에 대한 관심이 점차 높아지고 있음

•

그러나 고객이 사용하는 데이터는 단순 Text로만 이루어진 것이 아니라 다양한 형태의 이미지를 처리하고 이해해야 하는 경우가 많으며, 따라서 이미지와 텍스트를 동시에 이해할 수 있는 Multi-modal Embedding Model이 필요함

•

이 아티클에서 소개할 E5-V는 LLM을 통하여 Text Embedding Model을 만드는 방법을 확장하여 Vision Language Model(VLM)으로부터 Multi-modal Embedding Model을 만드는 방법을 제안하고 있음

•

리뷰 논문 : https://arxiv.org/abs/2407.12580 (by Microsoft)

개요

•

한줄 요약 : 기존에 존재하는 VLM을 활용하여 Image-text Paired 데이터가 아닌 텍스트 데이터로만 파인튜닝하여 뛰어난 Multi-modal Embedding Model을 만들 수 있음

•

LLM 기반으로 embedding model을 만들 때 최근 널리 사용하는 방식(https://arxiv.org/abs/2307.16645)을 확장하는 방법을 제안. 입력 텍스트 혹은 이미지 등을 넣고 적절한 프롬프트를 붙인 후 마지막 Token의 Hidden Representation을 Embedding Vector로 사용하는 방식

•

텍스트 데이터만 사용한 Contrastive Learning으로 파인튜닝했을 때 충분히 뛰어난 Multi-Modal Embedding Model을 만들 수 있음을 보여준 점이 주요 Contribution이라고 생각

•

Text-image Retrieval, Image-image Retrieval, Text Embedding 측면에서 모두 SOTA이거나 SOTA 에 비견되는 뛰어난 성능을 보여줌

Method

•

백본 모델 : LLaVA-NeXT-8B (LLaMA-3-8B + CLIP ViT-L), 뒤에 ablation study를 위해 Phi-3, LLaVA-1.6B (Mistral) 도 사용

•

학습

◦

데이터 : NLI, 273k Sentence Pairs

◦

방법 : Constrastive Learning, QLoRA, 768 Batch Size, 1000 Steps

◦

Prompt : "<text> \n Summary above sentence in one word:". <text>에 변환할 입력 문장이 들어가가며 마지막 토큰의 Hidden Representation을 Embedding Vector로 학습

Results

•

Text-image Retrieval

◦

Zero-shot Image Retrieval과 Text Retrieval 성능 측정

◦

비교 대상 모델 대비 꽤 괜찮은 성능을 보여줌

▪

EVA-02-CLIP 5B의 경우 4.4B 크기의 Image Encoder를 사용하며 대량의 Image-text Pairs 데이터로 튜닝한 모델

▪

반면 E5-V의 경우 CLIP ViT-L 수준의 Image Encoder를 사용

◦

사용한 벤치마크 데이터 : Flickr30K, COCO

◦

Prompt

◦

Performance

•

Composed Image Retrieval

◦

원본 이미지와 텍스트로 표현된 지시문(이미지 중 어떤 부분을 수정하라는 내용)을 입력으로 받음. 수정의 결과와 가장 비슷한 최종 이미지를 검색하는 문제

◦

비교 대상 모델 대비 거의 모든 점수에서 가장 뛰어난 성능을 달성

◦

사용한 벤치마크 데이터 : CIRR, FashionIQ

◦

Prompt

◦

Performance

•

Image-Image Retrieval

◦

Text-Image Retrieval 문제에서 Text 부분을 아래와 같이 이미지로(Arial font with 40 pixels, 800x400 resolution) 만든 후 동일한 task 수행

◦

비교 대상 모델은 이미지로 된 텍스트를 제대로 이해하지 못하였으나 E5-V의 경우 텍스트 입력을 사용했을 때 대비 약 80~90% 정도 수준으로 꽤 효과적인 모습을 보여줌. 

◦

사용한 벤치마크 데이터 : CIRR, FashionIQ

◦

Prompt : "<image> \n Summary above image in one word:"

◦

Performance

•

Text Sentence Embeddings

◦

사용한 벤치마크 데이터 : STS

◦

Prompt : "<text> \n Summary above sentence in one word:"

◦

Performance

◦

참고) MTEB 상위권 모델들과의 STS 성능 비교

모델명	STS12	STS13	STS14	STS15	STS16	SICK-R	Avg.
E5-V	80.03	89.94	85.67	89.09	85.89	83.51	85.69
stella_en_1.5B_v5 (24.7.25 현재 1위)	80.09	89.68	85.07	89.39	87.15	82.89	85.71
voyage-lite-02-instruct (STS 쪽 1위)	86.46	87.76	86.6	90.1	86.39	78.44	85.96
google-gecko.text-embedding (Google)	77.59	90.36	85.25	89.66	87.34	81.93	85.36
sfr-embedding-mistral (Salesforce)	79.47	89.15	84.93	90.74	87.82	82.92	85.84
e5-mistral-7b-instruct	79.66	88.43	84.54	90.43	87.68	82.64	85.56
NV-Embed-v1 (Nvidia)	76.22	86.3	82.09	87.24	84.77	82.8	83.24
Cohere-embed-english-v3.0 (Cohere)	74.37	85.2	80.98	89.23	84.67	81.27	82.62
text-embedding-3-large (OpenAI)	72.84	86.1	81.15	88.49	85.08	79.00	82.11

Further Analysis

•

Tuning 및 프롬프트에 따른 성능 분석

◦

어떤 프롬프트를 사용하는지에 매우 민감한 모습을 보임

◦

현재 사용하는 프롬프트는 별도 파인튜닝을 하지 않아도 어느 정도 Representation 능력이 존재하나 비교 대상 다른 두 방법은 현저히 저하됨

◦

파인튜닝하면 세 방법 모두 꽤 높은 수준으로 성능이 향상되지만 제안하는 프롬프트가 가장 효과가 좋음

◦

Embedding Vector의 분포를 살펴보면 비교 대상의 다른 2가지 방법은 텍스트와 이미지의 Embedding이 여전히 따로 놀고 있으나 제안 방법은 잘 섞여 있는 것을 확인할 수 있음

◦

이는 LLM의 뛰어난 Instruction Following 능력을 적절히 잘 활용할 수 있는 프롬프트를 사용하기 때문인 것으로 보임

◦

또한, 그렇기 떄문에 적절한 프롬프트를 사용하여 다양한 케이스에 대한 좋은 Multi-modal Embedding을 생성하는 일반화 능력이 존재한다고 볼 수 있음

•

Single Modality Training 효과 분석

◦

비교 대상 Multi-modal 학습 데이터 : CC3M 558K text-image pairs

◦

텍스트에 대해서만 튜닝한 것이 학습 시간도 거의 4% 수준(34.9h vs 1.5h; V100 32장 기준)이고 성능도 더 뛰어남

•

사용 백본 모델에 따른 성능 비교

◦

비교 대상 모델 모두에서 제안 방법의 효과를 확인

Discussion

•

최근 Foundation Model의 연구 방향이 LLM에서 Multi-modal LLM으로 중심이 넘어간 것과 마찬가지로 Embedding Model의 경우에도 Multi-modal Embedding에 대한 관심이 점차 커지고 있는 추세임

•

특히 이미 뛰어난 능력을 가진 Visual Foundation Model의 능력을 활용할 수 있는 방법론은 앞으로도 계속 각광을 받을 것으로 판단하며, E5-V에서 제안한 텍스트 데이터만으로 파인튜닝하여 고품질의 Multi-modal Embedding을 만들 수 있는 방법은 꽤 의미가 있고 흥미로운 접근이라 생각함

•

다만, 텍스트의 경우에도 LLM 기반의 Embedding은 모델이 크고 연산하는데 비용 및 시간이 많이 걸리는 단점이 있어서 실용적인 측면에서 여전히 의문이 존재하는 상황으로 E5-V와 같은 방법에서도 동일한 문제가 존재함

•

따라서 VLM을 활용한 연구와 Encoder 계열의 경량 모델의 연구가 당분간은 동시에 진행될 것으로 예상함