home
🤗

ML 개념 탐구 : 하드 네거티브 문제

Author
송영숙 / ML Researcher
Category
Paper Review
Tags
Hard Negative
Contrastive Learning
Embedding
Published
2023/10/18
AI 요약
5 more properties

하드 네거티브(hard negative)

대조 학습에서 사용되는 방법론으로 임베딩 공간에서 질문에 해당하는 쿼리와 정답 문장 사이의 거리는 가깝고 하드 네거티브 문장과는 멀게 만드는 것이 하드 네거티브 문제 해결의 관건
결국, 최적의 분류 경계선을 찾고자 하는 노력 중의 하나
보통의 검색에서는 키워드 기반 질문을 많이 하는데 비해 자연어 질문에 해당하는 내용을 질문 또는 쿼리로 구축하고 있음

1. 일반적인 방법론

Anchor : 학습 대상 데이터, Positive : 증강 데이터, Negative : 나머지 데이터로 처리
In-Batch sampling : 현재 질문에 대한 네거티브로 배치 내에 있는 다른 질문의 정답을 재사용하는 방식
Dense Retrieval과 같은 검색기를 사용하여 상위 k개의 후보 문서를 추출하고, 정답 문서로 부착된 문서를 제외한 후보 문서를 네거티브로 사용
하드 네거티브 샘플링 : 정답 문서는 아니지만 정답과 유사한 정보를 가진 네거티브를 사전에 구축하고 학습에 사용

2. 하드 네거티브 선별

n은 p와 비슷하지만 a와는 매치되지 않을 때 좋은 예시가 됨, 즉 질문에 대한 정답과 유사하지만 답을 유추하기 어려운 답들이 하드 네거티브로 취급된다.
a 는 질문 또는 Query 에 해당 p와 n은 응답 또는 검색 결과에 해당함

3. 시도해 볼만한 방법

검색 결과의 정확도를 향상시키기 위해, 불필요한 검색 결과를 최소화하는 방법을 고민해야 함
주요 키워드와 불필요한 키워드를 구분할 필요성이 있음
검색 쿼리에서 제외할 키워드 목록 작성 및 필터링 알고리즘 개발
사용자가 가장 중요하게 생각하는 키워드에 가중치를 부여하여 결과 순위 조정
Junlei Zhang et al.(2023)에서 제안한 것과 같이 생성 모델을 통해 데이터를 증강하는 것도 고려해 볼만 함

4. 관련 연구

박성흠, 김홍진, 황금하, 권오욱, 김학수, "검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법", 제35회 한글 및 한국어 정보처리 학술대회 논문 2023, 366-371
주요 내용:
데이터 세트: Natural Question
47,118 개의 질문에서 상위 후보 문서100개(Top-100) 중에서 평균적으로 3.6개의 후보 문서가 False Negative로 분류되었으며 최대 58개까지 있음
ERNIE-large 사용 Fine-tuning Cross-Encoder . 256 Batch Size, 2 Epoch, 1e-5 Learning Rate, 0.1 Warm-up Drop out Linear Scheduling
L. Xiong, C. Xiong, Y. Li, K.-F. Tang, J. Liu, P. N. Bennett, J. Ahmed, and A. Overwijk, “Approximate nearest neighbor negative contrastive learning for dense text retrieval,” International Conference on Learning Representations, 2020
In batch negative의 한계점을 극복하고자 ANN(Approximate nearest neighbor) 방법 사용
Cross Encoder의입력구조는 {[CLS], Query, [SEP], Title Candidate Passage, [SEP]}로, 질문과 후보 문서의 유사도가 0.9보다 높으면 False Negative로 간주
J. Zhan, J. Mao, Y. Liu, J. Guo, M. Zhang, and S. Ma,“Optimizing dense retrieval model training with hard negatives,” Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1503–1512, 2021.
훈련 방법으로 Stable Training Algorithm for dense Retrieval (STAR)와 query-side training Algorithm for Directly Optimizing Ranking pErformance (ADORE) 제안
두 훈련 방법 중 전자는 훈련 과정의 안정성 향상에 관여하고 후자는 샘플링 방법으로 작용
Y. Qu, Y. Ding, J. Liu, K. Liu, R. Ren, W. X. Zhao,D. Dong, H. Wu, and H. Wang, “Rocketqa: An optimized training approach to dense passage retrieval for open-domain question answering,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 5835–5847, 2021 (RocketQA)
오픈 도메인의 데이터에 적용했다는 특징이 있음
Dense passage retrieval사용
Negative sample을 늘리거나 hard negatives를 denoised 하는 방법 외에도 augmentation 방법을 제안
ERNIE-large를 사용하여 분류
Y. Cai, J. Guo, Y. Fan, Q. Ai, R. Zhang, and X. Cheng, “Hard negatives or false negatives: Correcting pooling bias in training neural ranking models,” Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pp. 118–127, 2022.
검색에 필요한 문서 중에서 검수자로 하여금 질문에 적합한 상위 k개의 문서에 라벨을 부착하게 함
K. Zhou, Y. Gong, X. Liu, W. X. Zhao, Y. Shen, A. Dong, J. Lu, R. Majumder, J.-R. Wen, and N. Duan, “Simans: Simple ambiguous negatives sampling for dense text retrieval,” Proceedings of the 2022 Conference on Empirical Methods in Natural Language Pro- cessing: Industry Track, pp. 548–559, 2022.
Ambiguous Negative 추출 방법 제안
Junlei Zhang, Zhenzhong Lan, Junxian He, Contrastive Learning of Sentence Embeddings from Scratch, 2023, arXiv:2305.15077
대규모 언어 모델을 활용하여 합성된 데이터로 문장 임베딩을 학습하는 대조 학습 프레임워크 제안
SynCSE-partial, SynCSE-scratch 의 두 가지로 데이터 구축
SynCSE-partial은 긍정 및 부정의 주석을 생성, SynCSE-scratch는 주석과 함께 문장도 생성