SuperNI × Clova X 한국어 번역(1): StrategyQA
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies
데이터 개관
데이터 이름 | 내용 | 범주 | 도메인 | 입력 언어 | 출력 언어 |
task169_strategyqa_sentence_generation | 특정 질문이 주어졌을 때 그 질문에 답하기 위해 알아야 할 사실을 기술 | [질의 응답] Misc. | 위키피디아 | 영어 | 영어 |
개요
다단계 추론 질문 답변(QA) 벤치마크
•
암시적인 질문인 ‘아리스토텔레스는 노트북을 사용했는가’에 답하기 위하여 명시적인 질문인 ‘노트북이 발명되었을 때 아리스토텔레스는 살아있었는가’ 로 변형하는 작업. 이를 위해 정답을 도출하는 프로세스를 설명하는 데이터의 특성을 지님
•
1. 아리스토텔레스의 생몰년월, 2. 노트북이 발명된 시기, 3. 2는 1 이전에 일어난 사건인가? 와 같이 정답을 도출하는 프로세스를 명시적으로 설명하는 과정을 데이터에 포함함
•
위의 질문과 같은 전략적 질문에는 어떤 것이 있는지 확인하고 멀티 홉으로 분해하여 데이터를 구축
•
QA 데이터 세트라고는 하나 대답은 ‘Yes/No’의 선택의문에 불과하여 기존의 질의응답 데이터 세트와는 구별된다.
주석자 편향 및 벤치마크 데이터로서의 난이도 조정을 위한 노력
생성 모델의 경우 주석자 편향을 극복하는 것이 데이터의 난이도를 결정하는 하나의 원인이 될 수 있는데 이 논문에서는 다음과 같이 데이터 수집 파이프라인을 구성하여 주석자 편향을 극복
주석자의 작업 과정
(1) (CQW, §3.1) 작업자는 용어(T)와 예상 답변(A)을 제시받고 질문(Q)과 답변에 필요한 사실(F1,F2)을 작성
(2) 질문은 작업자가 답을 찾을 것으로 예상되는 위키피디아 페이지의 타이틀(P1,P2)을 중심으로 단계(S1,S2)적으로 질문을 분해(SQD, §3.2).
(3) (EVM, §3.3), 분해 단계에서 위키피디아에서 근거가 될만한 내용(E1, E2)과 일치하도록 구성.
모델을 통한 필터링
(1) 문제가 너무 쉬운지 확인하는 5개의 사전 학습된 모델(PTD라고 함)을 배포. 5개의 모델 중 4개 이상이 정답을 맞히면 그 문제는 필터링함
(2) 수집된 데이터를 통해 지속적으로 미세조정하면서 현재 문제 세트의 편향성을 감지하기 위한 3개의 모델 세트(FNTD라고 함)를 사용. 3개의 솔버가 모두 정답을 맞히면 그 문제는 필터링함
번역 유용성
•
위의 워드 클라우드 시각화에서 알 수 있는 것처럼 영어 특정적인 데이터라고 보기 어려워 한국어로 번역했을 때도 사용 가치가 높음
•
사실 관계를 추적하는 추론 데이터로 영어뿐 아니라 한국어에서도 필요한 과정임
프롬프트 예시
- Input article 전문 번역용 prompt
당신은 영어 글을 보고 한국어로 번역해주는 전문적인 번역가입니다.
입력한 글은 전체 하나의 글을 문장 단위로 나누어 놓은 것입니다.
하나의 글임을 염두하고 문장 단위로 최대한 자연스러운 표현으로 번역해 주세요. 생성 내용은 상식에 기반한 사실이어야 합니다.
# 제약 조건
- 주어진 내용 전체가 하나의 뉴스 기사이며 문장 단위로 줄바꿈 되어 있다.
- 입력한 글 내용을 모두 포함한다.
- 생성 내용은 상식에 기반한 사실이어야 한다.
- 최대한 자연스러운 한국어 표현으로 번역한다.
Python
복사
Clova X 번역 예시
"Positive Examples": [
{
"input": "용어: 식용유, 설명: 식물이나 동물에서 유래하여 인간이 섭취하는 기름입니다. 질문: 모든 종류의 식용유를 따를 수 있나요? 답:아니오",
"output": "일부 오일에는 코코넛 오일과 팜유와 같이 포화 지방이 함유되어 있습니다. 포화 지방은 실온에서 고체 상태입니다.",
"explanation": "좋은 답변입니다. 이 질문에 답하기 위해서는 두 가지 사실을 모두 알아야 합니다."
},
{
"input": "용어: 아리스토텔레스, 설명: 고대 그리스의 철학자, 질문: 아리스토텔레스는 노트북을 사용했나요?, 답변: 아니요",
"output": "사실 1: 노트북은 1981년에 발명되었습니다.\n사실 2: 아리스토텔레스는 기원전 322년에 사망했습니다.",
"explanation": "이 질문에 답하기 위해서는 노트북의 발명과 아리스토텔레스의 죽음에 대해 알아야 합니다. 따라서 이것은 좋은 답변입니다."
}
],
"Negative Examples": [
{
"input": "카슈프세 마을은 조지아의 압하지아 지역에 있는 가가리아 지구에 위치해 있습니다. 따라서 카슈프세는 조지아에 있습니다.",
"output": "사실 1: 마을 카슈프세는 조지아 압하지아의 가가리아 지역에 위치해 있습니다.",
"explanation": "설명에 있는 정보를 바탕으로 사실 항목을 작성해서는 안 됩니다."
}
],
"Instances": [
{
"id": "task169-cfb7a4ed048d47d583c015bc2ae5ed60",
"input": "용어: 아트 데코(Art Deco), 설명: 1920년대 프랑스에서 처음 등장한 영향력 있는 시각 예술 디자인 스타일입니다. 질문: 아트 데코는 1990년대에 개최된 국제 장식 및 산업 박람회를 기반으로 한 것인가요? , 대답:아니오",
"output": [
"사실 1:아트 데코는 1925년 파리 박람회에서 이름을 따왔습니다. 사실 2: 르 코르뷔지에는 1925년에 아트 데코를 주제나 스타일로 언급하는 기사를 썼습니다. 사실 3: 르 코르뷔지에는 프랑스의 건축가였습니다."
]
Plain Text
복사
StrategyQA의 번역은 zero-shot으로 진행하여 사용한 예시 자료 없음. 번역 예시는 추후 자료에 적용 예정.
Clova X를 통한 번역의 장점
•
기존의 번역기에 비해 ‘프롬프트’나 몇 개의 예시(few shot)를 통해 원하는 톤을 사용하여 번역할 수 있음
•
번역 성능에서 비교적 길이가 짧은 일상 대화들은 품질 면에서 쓸만한 결과를 보여줌 (CLOVA X, 파파고, 구글번역기, DeepL Pro, GPT4, GPT3.5 의 6개 번역기로 번역 결과는 부록 참조)
한계
•
일관된 결과를 얻기 어려움:
◦
fact를 사실로 번역하기도 하고 팩트로 번역하기도 하는 등 하나의 단어를 둘 이상의 번역 용어를 사용하여 번역함
◦
번역이 아닌 응답을 시도하는 경향을 보였는데 이를 프롬프트로 완전하게 제어할 수 없었음
"id": "task169-5747a71efd7149abb4cc2938dc7ca141",
"input": "용어: 레슬링, 설명: 그레플링 유형 기술을 포함하는 격투 스포츠의 형태, 질문: 레슬링은 노인들이 연습하기에 권장되나요?, 답변: 아니요",
"output": [
"사실 1:레슬링은 몸에 무리를 줍니다. 사실 2: 노인들에 따라 다른 판단이 필요할 수 있습니다. 예를 들어, 노인이 레슬링을 취미로 즐기는 경우에는 큰 문제가 없을 수도 있습니다. 따라서, 상황에 따라 적절한 판단을 내리는 것이 중요합니다."
]
Python
복사
위의 예시에서 ‘예를 들어’이후는 영문을 번역한 것이 아니라 모델이 응답 내용을 추가한 것임
•
문장의 반복
"id": "task169-eab6898540324e68bb8523c5edf7405f", "input": "용어: 고대 이집트, 설명: 북동부 아프리카의 고대 문명, 질문: 아마존 강이 고대 이집트에서 물품 운송에 도움이 되었나요? , 답변:아니요",
"output": [
"사실 1:아마존 강은 다른 대륙에 위치해 있습니다.\n사실 2: 나일강은 이집트를 흐릅니다.\n사실 3: 이집트는 물품 운송을 위해 나일강을 이용했습니다.",
"사실 1:아마존 강은 다른 대륙에 위치해 있습니다.\n사실 2: 나일강은 이집트를 흐릅니다.\n사실 3: 이집트는 물품 운송을 위해 나일강을 이용했습니다.",
"사실 1:아마존 강은 다른 대륙에 위치해 있습니다.\n사실 2: 나일강은 이집트를 흐릅니다.\n사실 3: 이집트는 물품 운송을 위해 나일강을 이용했습니다."
Python
복사
위의 예시에서 사실1의 문장은 3번 반복되었다. 생성 모델이 반복을 거듭하는 것은 오래된 문제이기는 하지만 상당히 완화되어서 자주 나타나지는 않았고 비교적 발견과 수정이 쉬운 오류였음.
•
위의 오류들은 사람의 수정을 거쳤으나 일부 남아있을 수 있음
번역 데이터 보관 :
원본 데이터 출처
github 주소 : https://github.com/eladsegal/strategyqa
@article{geva2021strategyqa,
title = {{Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies}},
author = {Geva, Mor and Khashabi, Daniel and Segal, Elad and Khot, Tushar and Roth, Dan and Berant, Jonathan},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
year = {2021},
}
Plain Text
복사
부록: 번역기 및 초거대언어모델의 번역 성능 비교
# 원문 영어
"input": "Passage: Nearing London, Oliver encounters Jack Dawkins, a pickpocket more commonly known by the nickname the \"Artful Dodger\", and his sidekick, a boy of a humorous nature named Charley Bates, but Oliver's innocent and trusting nature fails to see any dishonesty in their actions. The Dodger provides Oliver with a free meal and tells him of a gentleman in London who will \"give him lodgings for nothing, and never ask for change\". Grateful for the unexpected assistance, Oliver follows the Dodger to the \"old gentleman's\" residence. In this way Oliver unwittingly falls in with an infamous Jewish criminal known as Fagin, the gentleman of whom the Artful Dodger spoke. Ensnared, Oliver lives with Fagin and his gang of juvenile pickpockets in their lair at Saffron Hill for some time, unaware of their criminal occupations. He believes they make wallets and handkerchiefs.",
"output": "Who believes Fagin's gang make wallets and handkerchiefs?.",
"explanation": "This question is based on the following sentence in the passage \"He believes they make wallets and handkerchiefs\". It evaluates the understanding that the pronoun \"he\" refers to name \"Oliver\". You can ask questions like this one about most pronouns in a paragraph."
원문 출처 :
https://raw.githubusercontent.com/allenai/natural-instructions/master/tasks/task001_quoref_question_generation.json
# CLOVA X
"올리버는 잭 도킨스, 즉 '아트풀 도저'라는 별명으로 더 잘 알려진 소매치기와 그의 조수인 찰리 베이츠라는 유머러스한 성격의 소년을 만나지만, 올리버의 순수하고 믿음직한 성격 때문에 그들의 행동에서 부정직함을 보지 못합니다. 도저는 올리버에게 공짜 식사를 제공하고 런던에 있는 신사에 대해 이야기하며 "공짜로 잠자리를 제공하고 절대 거스름돈을 요구하지 않을 것"이라고 말합니다. 예상치 못한 도움에 감사하며 올리버는 '어르신'의 집으로 도저를 따라갑니다. 이런 식으로 올리버는 자신도 모르게 아트풀 도저가 말한 그 신사, 즉 악명 높은 유대인 범죄자 페긴과 어울리게 됩니다. 함정에 빠진 올리버는 한동안 사프론 힐에 있는 소굴에서 페긴과 그의 청소년 소매치기 일당과 함께 살면서 그들의 범죄 직업을 알지 못한 채 지갑과 손수건을 만드는 줄 압니다."
페긴의 패거리가 지갑과 손수건을 만든다고 믿는 사람은 누구인가요?
이 질문은 다음 문장에 근거합니다: "그는 그들이 지갑과 손수건을 만든다고 믿는다." 여기서 대명사 "he"는 이름 "Oliver"를 가리키는 것으로 해석됩니다. 이와 같은 질문은 대부분의 대명사에 대해 할 수 있습니다.
# 파파고
"입력": "통과: 런던에 가까워지면서, 올리버는 \"예술적인 다저\"라는 별명으로 더 잘 알려진 소매치기 잭 도킨스와 그의 조수 찰리 베이츠를 만나게 되지만, 올리버의 순진하고 믿음직스러운 성격은 그들의 행동에 부정직함을 발견하지 못합니다. 다저는 올리버에게 무료 식사를 제공하고, 올리버에게 \"무상으로 숙소를 제공하고, 절대 거스름돈을 요구하지 않을\" 런던의 한 신사에 대해 이야기합니다. 예상치 못한 도움에 감사하여, 올리버는 다저를 따라 \"늙은 신사\" 집으로 갑니다. 이런 식으로 올리버는 자신도 모르게 예술적인 다저가 말한 파긴이라는 악명 높은 유대인 범죄자와 만나게 됩니다. 엔스네어드에 빠진 올리버는 파긴과 그의 소년 소매치기 일당과 함께 얼마 동안 샤프란 언덕의 그들의 은신처에서 그들의 범죄 직업을 알지 못한 채 함께 살고 있습니다. 올리버는 그들이 지갑과 손수건을 만든다고 믿습니다.",
"산출물": "누가 파긴의 패거리들이 지갑과 손수건을 만든다고 믿겠습니까?","
"설명": "이 질문은 \"그는 그들이 지갑과 손수건을 만든다고 믿습니다\"라는 구절에 근거한 것입니다. 그것은 대명사 \"그\"가 \"올리버\"라는 이름을 가리키는 것이라는 이해를 평가합니다. 여러분은 한 문단의 대부분의 대명사에 대해 이와 같은 질문을 할 수 있습니다."
# 구글번역기
"input": "통로: 런던 근처에서 Oliver는 \"Artful Dodger\"라는 별명으로 더 잘 알려진 소매치기 Jack Dawkins와 그의 조수인 Charley Bates라는 유머러스한 성격을 가진 소년을 만납니다. 자연은 그들의 행동에서 어떤 부정직함도 보지 못합니다. 다저는 올리버에게 무료 식사를 제공하고 "공짜로 숙소를 제공하고 결코 잔돈을 요구하지 않는" 런던의 한 신사에 대해 이야기합니다. 예상치 못한 도움에 감사합니다. 올리버는 다저를 따라 "노신사"의 집으로 갑니다. 이런 식으로 올리버는 자신도 모르는 사이ㅁ에 아트풀 다저가 말한 신사인 파긴(Fagin)으로 알려진 악명 높은 유대인 범죄자와 만나게 됩니다. 올무에 빠진 올리버는 페이긴과 그의 청소년 갱단과 함께 살고 있습니다. 소매치기들은 Saffron Hill의 은신처에서 한동안 범죄 행위를 알지 못한 채 지갑과 손수건을 만든다고 믿습니다.",
"output": "Fagin의 갱단이 지갑과 손수건을 만든다고 누가 믿나요?.",
"설명": "이 질문은 \"그는 그들이 지갑과 손수건을 만든다고 믿습니다\"라는 구절의 다음 문장에 기초합니다. 대명사 \"그\"가 이름 \"올리버\"를 의미한다는 이해를 평가합니다. 당신 한 문단에 있는 대부분의 대명사에 대해 이와 같은 질문을 할 수 있습니다."
# DeepL Pro
"입력": "통로: 런던에 가까워진 올리버는 '교활한 다저'라는 별명으로 더 잘 알려진 소매치기 잭 도킨스와 그의 조수인 유머러스한 성격의 소년 찰리 베이츠를 만나지만, 올리버의 순수하고 신뢰하는 성격은 그들의 행동에서 어떤 부정직함도 발견하지 못합니다. 다저는 올리버에게 무료 식사를 제공하고 "거스름돈을 요구하지 않고 무료로 숙소를 제공하는" 런던의 한 신사에 대해 알려줍니다. 예상치 못한 도움에 감사한 올리버는 다저를 따라 '노신사'의 집으로 향합니다. 이런 식으로 올리버는 자신도 모르게 교활한 다저가 말한 신사, 파긴으로 알려진 악명 높은 유대인 범죄자와 엮이게 됩니다. 덫에 걸린 올리버는 파긴과 그의 청소년 소매치기 일당과 함께 샤프론 언덕에 있는 그들의 은신처에서 한동안 범죄자라는 사실을 모른 채 살게 됩니다. 그는 그들이 지갑과 손수건을 만든다고 믿습니다.",
"출력": "누가 Fagin의 갱단이 지갑과 손수건을 만든다고 믿습니까?",
"설명": "이 질문은 \"그는 그들이 지갑과 손수건을 만든다고 믿는다\"라는 구절의 다음 문장을 기반으로합니다. 이 질문은 대명사 \"그는\"이 이름 \"올리버\"를 지칭한다는 것을 이해하는지를 평가합니다. 한 단락에 있는 대부분의 대명사에 대해 이와 같은 질문을 할 수 있습니다."
# GPT4
"input": "문단: 런던에 가까워지면서, 올리버는 잭 도킨스라는 소매치기를 만나게 됩니다. 잭은 보통 '아트풀 도저'라는 별명으로 더 잘 알려져 있으며, 유머러스한 성격의 소년인 찰리 베이츠를 부하로 두고 있습니다. 하지만 올리버는 순진하고 신뢰하는 성격 탓에 그들의 행동에서 부정직함을 보지 못합니다. 도저는 올리버에게 무료 식사를 제공하고 런던의 한 신사가 "아무 것도 요구하지 않고 무료로 숙소를 제공할 것"이라고 말합니다. 예상치 못한 도움에 감사하며 올리버는 도저를 따라 "늙은 신사"의 집으로 갑니다. 이렇게 해서 올리버는 자신도 모르게 악명 높은 유대인 범죄자인 파긴과 얽히게 되며, 아트풀 도저가 말한 바로 그 신사입니다. 파긴의 소굴인 샤프론 힐에서 그와 그의 소년 소매치기 무리와 어느 정도 시간을 보내게 되는데, 그들이 범죄자라는 사실을 모릅니다. 올리버는 그들이 지갑과 손수건을 만든다고 믿습니다.",
"output": "파긴의 무리가 지갑과 손수건을 만든다고 믿는 사람은 누구입니까?",
"설명": "이 질문은 문단의 "그들이 지갑과 손수건을 만든다고 믿습니다"라는 문장을 기반으로 합니다. 이는 대명사 '그'가 '올리버'라는 이름을 지칭함을 이해하는 것을 평가합니다. 당신은 이 문단에서 대부분의 대명사에 대해 이와 같은 질문을 할 수 있습니다."
# GPT3.5
"input": "패러그래프: 런던에 가까워지면서 올리버는 잭 도킨스를 만나게 되는데, 그는 보통 "아트풀 도저"라는 별명으로 더 잘 알려진 주먹구구 무는 도둑이며, 그의 조수로 재미있는 성격의 소년인 찰리 베이츠가 함께 있다. 그러나 올리버의 순진하고 믿음직한 성격은 그들의 행동에 어떤 부정직함도 보지 못한다. 도저는 올리버에게 무료 식사를 제공하고 런던의 어떤 신사에 대해 언급하며 "그는 숙소를 무료로 제공하고 거스름돈을 요구하지 않을 것"이라고 말한다. 예기치 못한 도움에 감사한 올리버는 도저를 "늙은 신사"의 거주지로 따라간다. 이렇게 해서 올리버는 알리바이도 없이 악명 높은 유대인 범죄자인 패진과 함께 생활하게 되고, 그는 패진과 그의 소년 도둑들의 범행을 알지 못한 채 시간을 보낸다. 그는 그들이 지갑과 손수건을 만든다고 믿는다.",
"output": "누가 패진의 일당이 지갑과 손수건을 만든다고 믿나요?",
"explanation": "이 질문은 문장 내용 중 '그는 그들이 지갑과 손수건을 만든다고 믿는다'라는 부분을 기반으로 합니다. 이 질문은 대명사 '그'가 이름 '올리버'를 지칭하는지에 대한 이해를 평가합니다. 대부분의 대명사에 대한 이와 같은 질문을 할 수 있습니다."
Plain Text
복사
CLOVA X, GPT4, GPT3-5 에는 ‘다음 영어 문장을 한국어로 번역해 주세요.’라는 지시문만 사용하고 추가 프롬프트를 하지 않은 상태의 성능 번역이라서 추가 프롬프트에 따라 문체 변경이나 성능 향상을 기대할 수 있음