Author
박우명 / CDO & Head of Research
Category
Paper Review
Tags
PromptingTuningLLMReasoning
Published
November 3, 2023
도입
- Prompting은 사람이 초거대 언어 모델(LLM)을 제어하고 소통하는 수단이라 볼 수 있음.
- 별도의 파라미터 업데이트 없이 이러한 prompting만 입력하는 in-context learning(ICL) 방식을 통해 LLM이 다양한 문제에서 뛰어난 성능을 보여주고 있음
- 이 아티클에서는 복잡한 추론(reasoning) 문제에서 최신 방법론인 diversity of thought와 관련한 주요 reference들에 대하여 소개함
- 리뷰 논문
- Scratchpads : https://arxiv.org/abs/2112.00114 (by Google)
- Chain-of-Thought(CoT) : https://arxiv.org/abs/2201.11903 (by Google)
- Self-consistency(SC) : https://arxiv.org/abs/2203.11171 (by Google)
- Diversity of Thoughts(DoT) : https://arxiv.org/abs/2310.07088 (by MS, UIUC, Stanford)
개요
- 일반적인 Prompting은 지시문과 예제(zero-shot인 경우는 지시문만)로 구성되며 최종 결과를 바로 생성하게 하는 방식
- 여기서 소개하는 논문들이 제안하는 방법은 크게 2가지로 나눌 수 있음
- 풀이 과정을 LLM이 스스로 생성 : Scratchpads, CoT
- LLM이 문제를 여러 번 풀게 한 후 Ensemble : SC, DoT
- 이는 예를 들어 사람이 수학 문제를 풀 때 풀이 과정을 적고, 여러 번 검산하는 것과 비슷한 느낌으로 해석할 수 있음
방법론
- Method 1 : 풀이 과정을 LLM이 스스로 생성
- Scratchpads와 CoT 모두 풀이 과정을 모델이 스스로 생성하는 점은 동일하나 CoT가 좀 더 자연어 형식으로 생성한다는 점에서 차이가 존재함.
- 비록 Scratchpads가 먼저 나왔으나 CoT 방식이 자연어 형태로 생성하여 LLM 능력을 leverage하는데 더 효과적이며 더 다양한 task에 적용 가능할 수 있는 일반적인 방법론이라 CoT가 이후 더 주목받은 것으로 생각됨
- Method 2 : LLM이 문제를 여러 번 풀게 한 후 생성 결과를 emsemble
- SC
- CoT Prompting을 LLM에 입력하여 여러 종류의 결과를 생성
- 생성한 결과에 대하여 majority vote를 적용하여 가장 많은 수의 답변을 최종 답변으로 결정
- 다양한 종류의 decoder sampling 방법(e.g., temperature, top-k, top-p, nucleus sampling 등) 적용 가능
- 지난 글(효과적인 프롬프팅(Prompting) 방법론 소개)에서 다룬 방법론인 COSP에서 최종 답변을 선택할 때도 SC를 적용하고 있음
- DoT
- 하나의 질문에 대해서 서로 다른 “approach”로 풀이 과정을 생성하고 결과를 도출한 후 ensemble 하는 방법
- 주어진 질문에 대하여 어떤 approach로 답을 구하라는 지시문을 입력. 위 예제에서는 “Using direct calculation”, “Using algebra”, “Using visualization” 3가지 approach로 생성하고 있음
- 2가지 방법론을 제안.
- DIV-SE(DIVerse reasoning path Self-Ensemble) : 하나의 프롬프트는 하나의 방법만 생성하게 한 후 총 n 번 호출을 하여 생성하는 방법
- IDIV-SE(In-call DIV-SE) : 위 그림의 예제처럼 하나의 프롬프트에 n 가지 방법에 대한 답을 동시에 생성하는 방법
결과
- Standard Prompting vs CoT
- LLM의 크기가 작은 경우 오히려 성능 하락이 존재하나 모델이 큰 경우 (60B 이상) 비교적 큰 폭의 성능 향상 존재 (emergent ability)
- 작은 LLM의 경우 잘못된 풀이 과정을 생성하고 그것이 noise로 작용하는 경우가 많아서 성능이 오히려 하락한 것으로 보임
- 위 현상은 LLM의 절대 크기보다는 LLM이 가진 능력에 더 큰 영향을 받음. 즉, sLLM이라도 최근 등장하는 훨씬 뛰어난 모델들의 경우는 효과가 있음 (e.g., 20B 크기인 ChatGPT)
- 다양한 종류의 task에서 효과가 있음
- CoT vs SC
- 점수 상승 폭에는 차이가 존재하나 single inference 대비 거의 모든 LLM, 모든 task에서 효과가 있음
- 단, sampling 하는 횟수만큼 LLM을 호출해야 하므로 비례해서 추론 비용이 발생
- SC vs DoT
- 더 좋은 cost-performance tradeoff를 제공
논의사항
- LLM의 능력이 좋아지면서 zero-shot, few-shot으로 해결할 수 있는 문제의 종류 및 수준이 점차 높아지고 있음.
- 따라서 최적의 결과를 얻기 위한 prompt 설계 방법론이 앞으로도 점점 중요성이 높아질 것 같음
- 프롬프트를 통해 성능을 향상하기 위한 비교적 간단하고 유용한 방법론으로 참고할 만한 결과라 판단