home
🧭

[논문_리뷰]Super-NaturalInstructions

Author
박우명 / CDO & Head of Research, 송영숙 / ML Researcher
Category
Paper Review
Tags
Instruction
LLM
dataset
Super-NaturalInstructions
Published
2023/12/08
AI 요약
5 more properties
이 아티클의 전반부는 Super-NaturalInstructions(SuperNI) 논문을 개괄적으로 살펴본 후 후반부에서는 SuperNI에 포함된 데이터 세트 중에서 한국어로 되어 있거나 흥미로운 주제를 담고 있는 데이터 세트를 다룸.

논문 소개

개요

SuperNI는 Allen Institute for AI, University of Washington, Arizona State University를 비롯한 총 21개 기관 소속의 연구자들이 참여하여 1,600 여개의 NLP instruction 데이터를 제작하고 공개한 프로젝트
https://arxiv.org/abs/2104.08773 에서 61개 task에 대한 데이터를 공개하는 것으로 시작
총 88명의 contributor들이 기존에 공개된 NLP 데이터를 활용하고 crowdsourcing 하는 등의 방법으로 작업
Tk-Instruct(영어) 및 mTk-Instruct(다국어) 모델 개발
각각 T5 및 mT5 모델을 SuperNI 데이터로 fine-tuning
119가지 영어 task에서 InstructGPT 대비 ROUGE-L 점수 기준 9.9점 향상
35가지 영어가 아닌 언어 task에서 InstructGPT 대비 13.3점 향상

방법론 상세

데이터 구조
Definition : task 수행을 위한 instruction
Positive examples : input / correct output / 관련 설명으로 구성
Negative examples : input / incorrect output / 관련 설명으로 구성
Evaluation instances : Tk-Instruct 및 mTk-Instruct 모델 학습에는 사용하지 않고 evaluation에만 사용하는 테스트 데이터. Task별 밸런스를 맞추기 위하여 최대 6500개로 제한
SuperNI 데이터 세트의 간단한 통계 분석
SuperNI에 포함된 Task의 종류 및 다른 instruction 데이터 세트와 비교

Results

전체 결과 summary
영어 : 발표 당시 기준 InstructGPT 대비 ROUGE-L 점수 기준 9.9점 높음 (52.1 vs 66.0)
다국어 : 발표 당시 기준 InstructGPT 대비 ROUGE-L 점수 기준 13.3점 높음 (52.8 vs 66.1)
Task 유형별 성능 비교
모든 유형에서 InstructGPT보다 더 좋으며 일부 유형에서는 supervised SOTA 성능과 거의 유사한 수준
(이미지출처) Microsoft Designer - Stunning designs in a flash 를 사용하여 자동 생성 후 편집

주요 데이터 소개

데이터에 가장 많이 포함된 범주

상위 범주를 살펴보면 위의 논문 리뷰에서 알 수 있는 것처럼 번역에 해당하는 과제가 가장 많고 번역 외에도 질의 응답, 프로그램 실행( “Generating text that follows simple logical operations such as "repeat", "before", "after" etc.” 등의 과제), 질의문 자동 생성, 감성 분석, 범주 분석, 문장 유사성 평가. 민감한 주제 탐지, 인과 관계 분류, 정보 추출 등이 많음
원천 데이터로 가장 많이 사용된 데이터를 살펴 보면 다음 표에서 확인할 수 있는 것처럼 위키피디아임을 알 수 있음
그 외에도 뉴스나 위키피디아와 뉴스를 같이 쓰는 경우가 많고 수학식, 대화, 일반상식, SNS 데이터 등이 많이 사용되었음

사용 언어

사용 언어
데이터 개수
사용 언어
데이터 개수
사용 언어
데이터 개수
English
1243
Urdu
10
Assamese
1
Spanish
27
Galician
9
Burmese
1
Japanese
25
Hebrew
9
Czech
1
Persian
24
Catalan
7
Dutch
1
Hindi
20
Korean
7
Greek
1
Chinese
15
Dutch, English
4
Igbo
1
Gujarati
15
Bulgarian
3
Kannada
1
Telugu
14
Croatian
3
Kurdish
1
Arabic
12
Swedish
3
Lithuanian
1
Bengali
12
Turkish
3
Malay
1
French
12
Central Khmer
2
Nepali
1
Marathi
12
Filipino
2
Norwegian
1
Italian
11
Finnish
2
Romanian
1
Malayalam
11
Indonesian
2
Sinhala
1
Oriya
11
Lao
2
Slovak
1
Panjabi
11
Russian
2
Somali
1
Polish
11
Thai
2
Tagalog
1
Portuguese
11
Vietnamese
2
Xhosa
1
Tamil
11
Yoruba
2
Zhuang
1
German
10
총합계
1613
영어 데이터가 가장 많고 출력 형식이 한국어인 데이터는 모두 7개임.
출력만 한국어인 데이터는 모두 번역용 데이터이고 입출력이 모두 한국어인 데이터는 Pawsx( https://github.com/google-research-datasets/paws/tree/master/pawsx) 1개뿐임. Pawsx 데이터 세트는 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어 등 유형적으로 구별되는 6개 언어를 사람이 번역한 PAWS 평가 쌍 23,659개와 기계 번역된 훈련 쌍 296,406개가 포함되어 있음. 번역은 PAWS-Wiki 에서 확인 가능 .
Name
Summary
Category
Domain
Input Language
Output Language
task771_pawsx_korean_text_modification
Given a sentence in Korean, provide an equivalent paraphrase in said language
Paraphrasing
Wikipedia
Korean
Korean
task777_pawsx_english_korean_translation
Given a sentence in English, provide an equivalent translation to Korean
Translation
Wikipedia
English
Korean
task790_pawsx_french_korean_translation
Given a sentence in French, provide an equivalent translation to Korean
Translation
Wikipedia
French
Korean
task796_pawsx_spanish_korean_translation
Given a sentence in Spanish, provide an equivalent translation to Korean
Translation
Wikipedia
Spanish
Korean
task802_pawsx_german_korean_translation
Given a sentence in German, provide an equivalent translation to Korean
Translation
Wikipedia
German
Korean
task808_pawsx_chinese_korean_translation
Given a sentence in Chinese, provide an equivalent translation to Korean
Translation
Wikipedia
Chinese
Korean
task814_pawsx_japanese_korean_translation
Given a sentence in Japanese, provide an equivalent translation to Korean
Translation
Wikipedia
Japanese
Korean
구체적인 예시는 다음과 같으며 레이블 0과 1은 문장의 관계가 같음(1로 표시)과 다름(0으로 표시)을 의미함
id
sentence1
sentence2
label
10
2005년과 2009년 사이 그가 스웨덴 Carlstad United BK, 세르비아 FK Borac Čačak, 러시아 FC Terek Grozny에서 뛰었던 것은 제외됩니다.
2005년 후반에서 2009년 사이 그가 스웨덴 Carlstad United BK, 세르비아 FK Borac Čačak, 러시아 FC Terek Grozny에서 뛰었던 기간은 제외입니다.
1
12
타바시 강은 루마니아 류드라 강의 지류이다.
Leurda강은 루마니아에 있는 Tabaci강의 지류입니다.
0
특징적으로 개체명에 해당하는 사람 이름이나 회사 이름 등은 모두 번역하지 않고 그대로 두었음. 또한 원천 데이터로 모두 Wikipedia를 사용했다는 특징이 있음.

참고

• Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Atharva Naik, Arjun Ashok, Arut Selvan Dhanasekaran, Anjana Arunkumar, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Kuntal Kumar Pal, et al.. 2022. Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 5085–5109, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.
관련 깃허브 링크 :
natural-instructions
allenai
Yinfei Yang, Yuan Zhang, Chris Tar, and Jason Baldridge. 2019. PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3687–3692, Hong Kong, China. Association for Computational Linguistics.
데이터 분석에 사용한 원천 데이터