🌲

ReSpect

Author

박우명 / CDO & Head of Research

Category

Paper Review

Tags

LLMInteraction

Published

November 6, 2024

도입
개요
Method
Results
Further Analysis
Discussion

도입

LLM의 능력은 매우 뛰어나며 많은 Task에서 사람을 뛰어 넘는 모습을 보여주고 있음
그렇지만 사람처럼 다른 사람과의 Interaction을 통하여 배우고 경험을 쌓으며 전문가로 성장하는 능력에 대한 탐구는 아직 부족함. 이것이 AI가 실제 업무 및 비즈니스에 적용되는데 어려움을 겪는 주요 원인 중 하나라 판단
이 아티클에서는 이처럼 사람과의 Interaction을 통하여 점차 배우고 똑똑해지는 방법에 대한 사례를 소개
리뷰 논문 : https://arxiv.org/abs/2410.13852 (by Cornell Univ.)

개요

요약 : 대화형 Agent에서 멀티턴 대화를 하면서 사람의 반응으로부터 피드백을 추출하고 이것을 학습하여 Task 수행 성공률을 31%에서 82%로 향상
Tangram 퍼즐을 바탕으로 여러 턴의 대화를 통하여 Speaker가 요청하는 모양을 Listener가 맞추는 Task인 MultiRef 데이터를 제작
이전 Interaction과 Speaker의 반응을 토대로 Feedback을 추출하여 성능을 개선시키는 ReSpect 방법론을 제안하였으며, 제작한 MultiRef 데이터에서 그 효과를 입증함

Method

대상 Task : MultiRef

Multi-turn Grounded Interaction Scenario
2명의 화자(문제를 내는 Speaker와 문제를 맞추는 Listener)가 존재. 이 연구에서 Speaker는 항상 사람이며 Listener는 항상 AI Agent가 담당
Tangram을 활용한 다양한 모양 중 Speaker가 설명하는 것을 Listener가 맞추는 방식으로 대화가 이어짐.
Metric

Interaction 성공률 : 성공적인 Interaction의 비율. 이 때 10턴 이내로 Listener가 의도한 모든 모양을 맞춘 경우 성공으로 판단함
Interaction 당 턴 수 : 각 Interaction 별로 진행한 평균적인 대화 턴 수
Exact Match : 전체 턴 중 모델의 행동이 사람 평가자가 레이블링한 행동과 일치하는 턴의 비율
Similarity : 정답 Action과 실제 Action과의 유사도. 유사도는 아래와 같이 정의하며, 이 때 $\hat{a}=\{\hat{p}_1,\dots, \hat{p}_{\hat{n}},\hat{q}_1,\dots,\hat{q}_{\hat{m}} \}$ 은 모델이 선택한 Action, p는 select, q는 deselect를 의미. $a^*$ 는 정답 Action을 의미함

Positive Feedback : 전체 턴 중 Positive Feedback을 받은 턴의 비율
Click Accuracy : 전체 행동(Select / Deselect) 중 정답에 기여하는 행동(타겟을 Select하기, 타겟이 아닌 것을 Deselect하기)의 비율

ReSpect

2가지 단계로 구성 : 1) 다음 턴 Speaker의 반응을 보고 Implicit Feedback을 예측, 2) 추출한 Feedback을 활용하여 학습
Implicit Feedback을 예측

LLM에 다음과 같은 프롬프트를 입력하여 긍정/부정(혹은 긍정/부정/중립) 여부를 판단

학습

Supervised Learning : 긍정 피드백을 받은 데이터만 모아서 튜닝
Reinforcement Learning : REINFORCE, KTO 등의 방법으로 수집한 피드백 데이터를 대상으로 RL 수행

Results

총 실험 대상 : 총 6가지

Feedback 종류에 따른 분류 : Binary(B) / Tenary(T)
학습 방법에 따른 분류 : Supervised(Sup), REINFORCE(RL), KTO

매 라운드마다 330개 Interactions, 대략 2400턴으로 구성된 데이터를 적용하여 평가 및 학습에 활용
대화 Example

Main Result

3라운드까지 가장 좋은 성능을 보인 B-Sup에 대해서 추가로 3라운드를 더 수행하여 경향을 관찰
라운드가 거듭될수록 성능이 향상(B-KTO 3라운드 제외) : 성공률 향상, 평균 턴수 감소, click accuracy 증가 등
Supervised > RL > KTO
Binary와 Tenary는 학습 방법에 따라 경향이 다름. 즉, 어느 쪽이 항상 더 좋다고 말하기 애매함
턴별 성능을 살펴봐도 유사하게 라운드에 따라 향상하는 모습이 관찰됨

Further Analysis

3라운드까지는 사용하는 단어의 개수, 발화의 길이, Reset 횟수, 재시도 횟수 등이 감소하는 경향을 보임.
이는 모델이 Task에 적응하면서 한번에 보다 정확한 결과를 만들기 때문인 것으로 해석 가능
그렇지만 B-Sup을 6라운드까지 진행할 때는 오히려 몇몇 수치(단어 개수, 발화 길이, 재시도 횟수 등)가 증가하는 예상치 못한 경향이 나타남

Discussion

검색 시스템에서 사용하는 Implicit Relevance Feedback(IRF)은 유저의 행동으로부터 피드백을 추출하여 검색 결과를 개선하는데 활용하는 방법으로 현재 검색 엔진에 널리 적용되어 있음
그렇지만 대화형 Agent에서는 아래와 같은 이슈로 IRF의 적용이 그다지 성공적이지 못했음

사용자의 응답으로부터 어떤 eFedback을 어떻게 추출하는지 이슈
추출한 피드백을 어떻게 응답 성능 개선에 활용하는지 이슈

LLM의 뛰어난 추론 능력과 최근 발전하는 Preference Learning 기법들을 활용하여 대화형 Agent에서 IRF를 추출하고 활용하는 한 가지 방향을 제시하였다는 측면에서 의의가 있다고 판단
다만 방법론 자체는 단순한 편으로 개선의 여지가 많이 존재하며, 게다가 저자들이 생성한 Task 대상으로만 실험을 했으므로 보다 범용적인 Task에 대한 유효성 검증은 필요하다고 생각함