🤗

ML 개념 탐구 : 하드 네거티브 문제

Author

송영숙 / ML Researcher

하드 네거티브(hard negative)

•

대조 학습에서 사용되는 방법론으로 임베딩 공간에서 질문에 해당하는 쿼리와 정답 문장 사이의 거리는 가깝고 하드 네거티브 문장과는 멀게 만드는 것이 하드 네거티브 문제 해결의 관건 

•

결국, 최적의 분류 경계선을 찾고자 하는 노력 중의 하나

•

보통의 검색에서는 키워드 기반 질문을 많이 하는데 비해 자연어 질문에 해당하는 내용을 질문 또는 쿼리로 구축하고 있음

1. 일반적인 방법론

•

Anchor : 학습 대상 데이터, Positive : 증강 데이터, Negative : 나머지 데이터로 처리

•

In-Batch sampling : 현재 질문에 대한 네거티브로 배치 내에 있는 다른 질문의 정답을 재사용하는 방식

•

Dense Retrieval과 같은 검색기를 사용하여 상위 k개의 후보 문서를 추출하고, 정답 문서로 부착된 문서를 제외한 후보 문서를 네거티브로 사용

•

하드 네거티브 샘플링 : 정답 문서는 아니지만 정답과 유사한 정보를 가진 네거티브를 사전에 구축하고 학습에 사용

2. 하드 네거티브 선별

(1) Training State-of-the-Art Sentence Embedding Models - YouTube

https://github.com/huggingface/blog/blob/main/1b-sentence-embeddings.md

https://www.sbert.net/docs/package_reference/losses.html#multiplenegativesrankingloss

•

n은 p와 비슷하지만  a와는 매치되지 않을 때 좋은 예시가 됨, 즉 질문에 대한 정답과 유사하지만 답을 유추하기 어려운 답들이 하드 네거티브로 취급된다.

•

a 는 질문 또는 Query 에 해당 p와 n은 응답 또는 검색 결과에 해당함

3. 시도해 볼만한 방법

•

검색 결과의 정확도를 향상시키기 위해, 불필요한 검색 결과를 최소화하는 방법을 고민해야 함

◦

주요 키워드와 불필요한 키워드를 구분할 필요성이 있음

◦

검색 쿼리에서 제외할 키워드 목록 작성 및 필터링 알고리즘 개발

◦

사용자가 가장 중요하게 생각하는 키워드에 가중치를 부여하여 결과 순위 조정

◦

Junlei Zhang et al.(2023)에서 제안한 것과 같이 생성 모델을 통해 데이터를 증강하는 것도 고려해 볼만 함

4. 관련 연구

•

박성흠, 김홍진, 황금하, 권오욱, 김학수, "검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법", 제35회 한글 및 한국어 정보처리 학술대회 논문 2023, 366-371

◦

주요 내용:

▪

데이터 세트: Natural Question

▪

47,118 개의 질문에서 상위 후보 문서100개(Top-100) 중에서 평균적으로 3.6개의 후보 문서가 False Negative로 분류되었으며 최대 58개까지 있음

▪

 ERNIE-large 사용 Fine-tuning Cross-Encoder  .  256 Batch Size,
2 Epoch, 1e-5 Learning Rate, 0.1 Warm-up Drop out Linear Scheduling  

•

L. Xiong, C. Xiong, Y. Li, K.-F. Tang, J. Liu, P. N. Bennett, J. Ahmed, and A. Overwijk, “Approximate nearest neighbor negative contrastive learning for dense text retrieval,” International Conference on Learning Representations, 2020

◦

In batch negative의 한계점을 극복하고자 ANN(Approximate nearest neighbor) 방법 사용

◦

Cross Encoder의입력구조는 {[CLS], Query, [SEP], Title Candidate Passage, [SEP]}로, 질문과 후보 문서의 유사도가 0.9보다 높으면 False Negative로 간주

•

J. Zhan, J. Mao, Y. Liu, J. Guo, M. Zhang, and S. Ma,“Optimizing dense retrieval model training with hard negatives,” Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1503–1512, 2021.

◦

훈련 방법으로 Stable Training Algorithm for dense Retrieval (STAR)와 query-side training Algorithm for Directly Optimizing Ranking pErformance (ADORE) 제안

◦

두 훈련 방법 중 전자는 훈련 과정의 안정성 향상에 관여하고 후자는 샘플링 방법으로 작용

•

Y. Qu, Y. Ding, J. Liu, K. Liu, R. Ren, W. X. Zhao,D. Dong, H. Wu, and H. Wang, “Rocketqa: An optimized training approach to dense passage retrieval for open-domain question answering,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 5835–5847, 2021 (RocketQA)

◦

오픈 도메인의 데이터에 적용했다는 특징이 있음

◦

Dense passage retrieval사용

◦

Negative sample을 늘리거나 hard negatives를 denoised 하는 방법 외에도 augmentation 방법을 제안

◦

ERNIE-large를 사용하여 분류

•

Y. Cai, J. Guo, Y. Fan, Q. Ai, R. Zhang, and X. Cheng, “Hard negatives or false negatives: Correcting pooling bias in training neural ranking models,” Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pp. 118–127, 2022.

◦

검색에 필요한 문서 중에서 검수자로 하여금  질문에 적합한 상위 k개의 문서에 라벨을 부착하게 함 

•

K. Zhou, Y. Gong, X. Liu, W. X. Zhao, Y. Shen, A. Dong, J. Lu, R. Majumder, J.-R. Wen, and N. Duan, “Simans: Simple ambiguous negatives sampling for dense text retrieval,” Proceedings of the 2022 Conference on Empirical Methods in Natural Language Pro-
cessing: Industry Track, pp. 548–559, 2022.

◦

Ambiguous Negative 추출 방법 제안

•

Junlei Zhang, Zhenzhong Lan, Junxian He, Contrastive Learning of Sentence Embeddings from Scratch, 2023, arXiv:2305.15077

◦

대규모 언어 모델을 활용하여 합성된 데이터로 문장 임베딩을 학습하는 대조 학습 프레임워크 제안

◦

SynCSE-partial, SynCSE-scratch 의 두 가지로 데이터 구축

◦

SynCSE-partial은 긍정 및 부정의 주석을 생성, SynCSE-scratch는 주석과 함께 문장도 생성