송영숙/ML Researcher
- 정량적 성능 비교
- Is ChatGPT a Highly Fluent Grammatical Error Correction System?A Comprehensive Evaluation의 성능 보고
- ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark의 성능 보고
- 논의 사항
이번 아티클에서는 GPT를 이용한 문법 오류 교정(GEC) 논문 4편을 알아본다. 문법 교정은 모어 화자와 외국어 학습자의 문법 오류를 감지하고 수정할 수 있도록 하는 방법을 모두 포함된다. 따라서 모어 화자는 규범에 맞는 말을 사용할 수 있도록 도움을 주고, 외국어 학습자는 언어 장벽을 낮출 수 있다는 점에서 중요한 연구라고 할 수 있다. 또한 GPT 이전에도 문법 오류에 대한 연구가 있었으나 주된 관심은 띄어쓰기 교정과 같이 사용자의 의도에 반하지 않는 선에서 최소한의 교정에 초점이 맞추어져 있었다. 그런데 생성 모델의 등장과 함께 인공지능 언어 모델이 다변화되면서 (1) 음성 인식기 오류 개선 (2) 문장 전체를 좀 더 자연스러운 모국어와 같이 수정할 수 있는 모델의 등장에 따라 사용자의 요구 사항도 다양화해지고 있다고 할 수 있다. 따라서 GPT를 사용한 문법 오류 교정 모델이 이와 같은 요구 사항에 어느 정도까지 충족될 수 있는지를 4편의 논문을 통해 살펴보고자 한다.
논문 | Is ChatGPT a Highly Fluent Grammatical Error Correction System?A Comprehensive Evaluation | ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark | Exploring Effectiveness of GPT-3 in Grammatical Error Correction: A Study on Performance and Controllability in Prompt-Based Methods | GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical Error Correction with Supervised Fine-Tuning |
데이터 | CoNLL14, NLPCC18 | CoNLL14 100개 문장 선별 | CoNLL14 | - 웹사이트에서 수집총 - 1,061개의 병렬 데이터 샘플을 구축 |
실험 | Zero-shot (CoT와 Few-shot CoT | - 문장 길이에 따른 성능 차이도 분석
- 과소 교정, 오교정, 과도 교정 사례 조사 | Zero-shot과
Few-shot | ChatGPT와 인간 주석을 결합한 하이브리드 데이터셋을 구축 |
대상언어 | 영어, 독일어, 중국어 | 영어 | 영어 | 중국어 |
결과 | - Precision과 F0.5 점수는 SOTA 모델들보다 낮지만 Recall 점수는 더 높음
- 문장 수준의 유창성과 오류 탐지에 강함
- 문장 간 일치, 대명사 참조, 시제 오류 등 문서 수준 오류 수정에 취약
- 문장 간 경계를 넘는 오류 수정에도 어려움
- 문서 수준 오류탐지와 특정 유형의 오류는 개선 필요
- 최소 편집 원칙을 덜 따르고 과도 수정하는 경향이 있음
- ChatGPT가 생성한 문장의 유창성이 매우 높음 | - 자동 평가 지표상으로는 ChatGPT가 Grammarly와 GECToR보다 낮은 성능을 보임
- 긴 문장에서 ChatGPT의 성능이 더 낮게 나타남
- ChatGPT는 단순히 오류를 하나씩 고치는 것을 넘어 문장 구조나 표현을 자연스럽게 바꾸는 경향이 있음
인간 평가 결과, ChatGPT는 과소 교정과 오교정이 적었지만 과도 교정은 많았음 |
- 적절한 작업 지시문과 예시를 제공하면 GPT-3로 GEC 작업을 효과적으로 제어할 수 있음
- 퓨샷 설정에서 예시의 수가 증가할수록 성능이 향상되는 경향을 보임
작업 지시문보다 예시가 모델의 출력을 제어하는 데 더 중요한 역할을 함 | -GrammarGPT의 성능이 가장 우수
-NLPCC2023 SharedTask에서 1~3위
- 모델 파라미터 크기는 20배 더 크지만, 파인튜닝에 필요한 데이터는 1/1200 수준으로 줄임 |
정량적 성능 비교
Is ChatGPT a Highly Fluent Grammatical Error Correction System?A Comprehensive Evaluation의 성능 보고
영어
독일어와 중국어
유창성, 최소한의 수정, 과다 수정, 과소 수정에 대해 세 명의 평가자가 제공한 평균 점수
- ChatGPT가 생성한 문장의 유창성이 매우 높음
- 최소 편집 원칙을 덜 따르고 과도 수정하는 경향이 있음
ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark의 성능 보고
논의 사항
- 주로 CoNLL-2014에 범용 언어 모델을(GPT류) 를 적용한 문법 오류 교정(GEC)은 특정 과제를 위해 고안된 모델(Grammarly)에 비해 성능이 월등히 우수한 것은 아님
- GPT류가 수정을 최소화하는 방안이 아닌 윤문 수준으로 변경한다면 위의 단순 문법 교정 능력을 평가한 위의 정량적 결과를 신뢰하기 어려움
- 과도한 윤문이 되지 않기 위한 제어 가능성과 관련해서는 범용 모델에 GrammarGPT 와 같이 특정 프롬프트를 사용해서 기능을 높이는 경우 제어가능성이 높아짐
- 사람의 평가 결과에서 GPT가 유창성에서는 높은 점수를 받았지만 제어 가능성에서 낮은 점수를 받은 것도 수정의 범위를 어디까지 했을 때 더 만족할만한 결과인가에 대한 가치판단의 문제일 수 있음을 암시함
- 오픈 소스 모델을 사용하거나 한국어로의 확장한 연구 등이 추가로 필요해 보임
<참고문헌>
Haoran Wu, Wenxuan Wang, Yuxuan Wan, Wenxiang Jiao, and Michael Lyu. 2023. ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark. arXiv preprint arXiv:2303.13648.
Fang, T., Yang, S., Lan, K., Wong, D.F., Hu, J., Chao, L.S., & Zhang, Y. (2023). Is ChatGPT a Highly Fluent Grammatical Error Correction System? A Comprehensive Evaluation. ArXiv, abs/2304.01746.
Loem, Mengsay & Kaneko, Masahiro & Takase, Sho & Okazaki, Naoaki. (2023). Exploring Effectiveness of GPT-3 in Grammatical Error Correction: A Study on Performance and Controllability in Prompt-Based Methods.
Fan, Yaxin & Jiang, Feng & Li, Peifeng & Li, Haizhou. (2023). GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical Error Correction with Supervised Fine-Tuning. 10.1007/978-3-031-44699-3_7.