하드 네거티브(hard negative)
•
대조 학습에서 사용되는 방법론으로 임베딩 공간에서 질문에 해당하는 쿼리와 정답 문장 사이의 거리는 가깝고 하드 네거티브 문장과는 멀게 만드는 것이 하드 네거티브 문제 해결의 관건
•
결국, 최적의 분류 경계선을 찾고자 하는 노력 중의 하나
•
보통의 검색에서는 키워드 기반 질문을 많이 하는데 비해 자연어 질문에 해당하는 내용을 질문 또는 쿼리로 구축하고 있음
1. 일반적인 방법론
•
Anchor : 학습 대상 데이터, Positive : 증강 데이터, Negative : 나머지 데이터로 처리
•
In-Batch sampling : 현재 질문에 대한 네거티브로 배치 내에 있는 다른 질문의 정답을 재사용하는 방식
•
Dense Retrieval과 같은 검색기를 사용하여 상위 k개의 후보 문서를 추출하고, 정답 문서로 부착된 문서를 제외한 후보 문서를 네거티브로 사용
•
하드 네거티브 샘플링 : 정답 문서는 아니지만 정답과 유사한 정보를 가진 네거티브를 사전에 구축하고 학습에 사용
2. 하드 네거티브 선별
•
n은 p와 비슷하지만 a와는 매치되지 않을 때 좋은 예시가 됨, 즉 질문에 대한 정답과 유사하지만 답을 유추하기 어려운 답들이 하드 네거티브로 취급된다.
•
a 는 질문 또는 Query 에 해당 p와 n은 응답 또는 검색 결과에 해당함
3. 시도해 볼만한 방법
•
검색 결과의 정확도를 향상시키기 위해, 불필요한 검색 결과를 최소화하는 방법을 고민해야 함
◦
주요 키워드와 불필요한 키워드를 구분할 필요성이 있음
◦
검색 쿼리에서 제외할 키워드 목록 작성 및 필터링 알고리즘 개발
◦
사용자가 가장 중요하게 생각하는 키워드에 가중치를 부여하여 결과 순위 조정
◦
Junlei Zhang et al.(2023)에서 제안한 것과 같이 생성 모델을 통해 데이터를 증강하는 것도 고려해 볼만 함
4. 관련 연구
•
박성흠, 김홍진, 황금하, 권오욱, 김학수, "검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법", 제35회 한글 및 한국어 정보처리 학술대회 논문 2023, 366-371
◦
주요 내용:
▪
데이터 세트: Natural Question
▪
47,118 개의 질문에서 상위 후보 문서100개(Top-100) 중에서 평균적으로 3.6개의 후보 문서가 False Negative로 분류되었으며 최대 58개까지 있음
▪
ERNIE-large 사용 Fine-tuning Cross-Encoder . 256 Batch Size,
2 Epoch, 1e-5 Learning Rate, 0.1 Warm-up Drop out Linear Scheduling
•
L. Xiong, C. Xiong, Y. Li, K.-F. Tang, J. Liu, P. N. Bennett, J. Ahmed, and A. Overwijk, “Approximate nearest neighbor negative contrastive learning for dense text retrieval,” International Conference on Learning Representations, 2020
◦
In batch negative의 한계점을 극복하고자 ANN(Approximate nearest neighbor) 방법 사용
◦
Cross Encoder의입력구조는 {[CLS], Query, [SEP], Title Candidate Passage, [SEP]}로, 질문과 후보 문서의 유사도가 0.9보다 높으면 False Negative로 간주
•
J. Zhan, J. Mao, Y. Liu, J. Guo, M. Zhang, and S. Ma,“Optimizing dense retrieval model training with hard negatives,” Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1503–1512, 2021.
◦
훈련 방법으로 Stable Training Algorithm for dense Retrieval (STAR)와 query-side training Algorithm for Directly Optimizing Ranking pErformance (ADORE) 제안
◦
두 훈련 방법 중 전자는 훈련 과정의 안정성 향상에 관여하고 후자는 샘플링 방법으로 작용
•
Y. Qu, Y. Ding, J. Liu, K. Liu, R. Ren, W. X. Zhao,D. Dong, H. Wu, and H. Wang, “Rocketqa: An optimized training approach to dense passage retrieval for open-domain question answering,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 5835–5847, 2021 (RocketQA)
◦
오픈 도메인의 데이터에 적용했다는 특징이 있음
◦
Dense passage retrieval사용
◦
Negative sample을 늘리거나 hard negatives를 denoised 하는 방법 외에도 augmentation 방법을 제안
◦
ERNIE-large를 사용하여 분류
•
Y. Cai, J. Guo, Y. Fan, Q. Ai, R. Zhang, and X. Cheng, “Hard negatives or false negatives: Correcting pooling bias in training neural ranking models,” Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pp. 118–127, 2022.
◦
검색에 필요한 문서 중에서 검수자로 하여금 질문에 적합한 상위 k개의 문서에 라벨을 부착하게 함
•
K. Zhou, Y. Gong, X. Liu, W. X. Zhao, Y. Shen, A. Dong, J. Lu, R. Majumder, J.-R. Wen, and N. Duan, “Simans: Simple ambiguous negatives sampling for dense text retrieval,” Proceedings of the 2022 Conference on Empirical Methods in Natural Language Pro-
cessing: Industry Track, pp. 548–559, 2022.
◦
Ambiguous Negative 추출 방법 제안
•
Junlei Zhang, Zhenzhong Lan, Junxian He, Contrastive Learning of Sentence Embeddings from Scratch, 2023, arXiv:2305.15077
◦
대규모 언어 모델을 활용하여 합성된 데이터로 문장 임베딩을 학습하는 대조 학습 프레임워크 제안
◦
SynCSE-partial, SynCSE-scratch 의 두 가지로 데이터 구축
◦
SynCSE-partial은 긍정 및 부정의 주석을 생성, SynCSE-scratch는 주석과 함께 문장도 생성