🧭

한국어 말뭉치 구축(1)

Author

송영숙 / ML Researcher

1. 말뭉치 구축의 변화 양상

를 통해서 1차 한국어 데이터 큐레이션을 진행하던 시기인 2019에는 구문분석 데이터와 유사문장, 병렬 코퍼스 등이 다수였다.

<그림1> 데이터의 일반적 사용과 제공 기관

이는 다음 이미지와 같이 형태소나 문장을 분석하여 그 특성을 추출하여 필요한 정보를 처리하는 데이터가 주로 구축되었기 때문이다.

<그림2> 텍스트 데이터의 분석 방법과 자연어 처리 과제 세분화

2020년부터 현재(2023년)까지는 혐오 표현과 함께 다양한 주제(기타 주제에 포함됨)의 데이터가 증가하였다. 전반적으로 의미 분류와 관련된 데이터가 연구와 산업에서 많이 사용된 것을 확인할 수 있다.

<그림3> 데이터의 일반적 사용과 제공 기관

이러한 변화를 반영하여 시기에 따라 많이 구축된 데이터를 하나의 이미지로 나타내면 다음과 같다.

<그림4> From Cho et al.(2023): Diachronic Overview of (Open) Korean Corpora (1990s – 2023)

이와 같은 변화가 있게 된 원인으로 word2vec 이전에는 구문이나 형태 등에서 얻은 정보를 자연어처리에서 주로 사용했다면 word2vec 이후에는 수집된 데이터를 정제하면서 정답 세트를 통해 모델을 교육하는 방식으로 모델링이 진행되었기 때문이다.

<그림5> 자연어처리의 일반적 과정

즉, word2vec 이전에는 다음과 같이 구문을 분석하는 연구들이 많았고 지금까지도 다양한 연구들이 진행되고 있다.

<그림6>박진호(2004)에서 인용, subj 주어, obj 목적어, adj 관형어, adv부사어

word2vec 이후 벡터 공간상에서 단어들 간의 관계를 파악할 수 있게 되면서 네이버 영화평 데이터와 같이 많은 양의 데이터에 긍정 감성이면 1, 부정 감성이면 0이라는 레이블을 붙이고 BERT와 같은 모델이 잘 학습하는지를 확인하는 과정이 자연어처리 분야에서 주를 이루었다.

$ head ratings_train.txt

id      document        label

9976970 아 더빙.. 진짜 짜증나네요 목소리        0

3819312 흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나        1

10265843        너무재밓었다그래서보는것을추천한다      0

9045019 교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정       0

6483659 사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다  1

5403919 막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.     0
JavaScript
복사

네이버 영화평 데이터 일부 (https://github.com/e9t/nsmc)

2. 말뭉치 구축의 저변 확대

2020년을 전후하여 나타난 두드러진 변화 중에 하나는 국가뿐만 아니라 기업 및 기관들도 데이터 구축에 적극적으로 참여하였다는 것이다. 국립국어원(모두의 말뭉치), 정보화 진흥원(AI HUB), 네이버(NLP Challenge), 업스테이지(Klue benchmark), 스마일 게이트 AI(혐오 표현 데이터 등) 등이 그 예이다. 구체적인 데이터에 대한 설명은

Open-korean-corpora 에서 확인할 수 있다.

Open-korean-corpora 에서 다루지 못했지만 주요 데이터 중에 하나인 국립국어원의 데이터를 살펴보면 다음과 같다.

말뭉치이름	발행연도	원시 말뭉치 / 주석 말뭉치	분량	예
일상대화	2020 (버전 1.0)	raw	파일 2,232개, 총 317MB	반려동물을 키우고 계신가요
어휘의미분석	2020 (버전 1.0)	tagged	2019년도에 구축된 300만 어절 규모(문어 200만, 구어 100만 어절)와 메신저 대화 말뭉치 (92만 어절)를 대상으로 형태 분석과 어휘 의미(체언류와 용언류)를 분석한 말뭉치	"word": "제주", "sense_id": 8, "pos": "NNP", "begin": 1, "end": 3, "word_id": 1
어휘관계	2020 (버전 1.0)	tagged	우리말샘 사전 기반 어휘 관계 기초 자료 20만 쌍(비슷한말 60,000쌍, 반대말 10,000쌍, 상위어 70,000쌍, 하위어 60,000쌍	가가대소 방소 유의어
문법성판단	2020 (버전 1.0)	tagged	총 19,940개 문장(문법적 문장 9,970개 문장, 비문법적 문장, 파일 4개, 총 3.19MB	높은 달이 떴다. 4.981(mean) 달이 뜸이 높았다. 2.223(mean)
개체명	2020 (버전 1.0)	tagged	총 300만 어절(문어 200만 어절, 구어 100만 어절), 파일 2개, 총 909MB	"form": "멕시코", "label": "LC"
유사문장	2020 (버전 1.0)	tagged	179,589개 문장, 파일 1개, 총 42.5MB	"경기 성남시 판교신도시에서 이달 분양하는 중대형 아파트의 3.3m²당 분양가가 1500만 원 후반대로 결정될 것으로 보이는데 이는 2006년보다 200만 원 정도 싼 가격이다."
웹	2020 (버전 1.0)	raw	블로그 11,521건 게시판 9,089건 누리 소통망 1,989,656건 -리뷰: 96,810건	"title": "비타민 사기 진짜 어려워..", "form": "오메가3와 비타민C, 달맞이꽃종자유 등을 사려고 몇 시간을 검색하며 공부했다. 그 결과 오염되지 않은 바다에서 잡힌 먹이사슬의 하단에 있는 생선이 좋다고 들었는데(덩치가 커지면 중금속 오염이 심하다고 함)
신문	2020 (버전 1.0)	raw	기사 3,536,491건(2009년부터 2018년까지 10년 동안 생산된 신문 기사 연 1억여 어절), 파일 363개, 총 15.6GB	2008년의 마지막 새벽, 언론의 카메라는 서울 여의도를 향했다. 방송법 등 주 요쟁점 법안이 상정될 국회 본회의장을 두고 여야 의원들의 전쟁을 기다리고 있었던 것
문어	2020 (버전 1.0)	raw	책, 잡지, 보고서 등 저작권 문제가 해결된 저작물 10,045종의 문어 원시 말뭉치, 파일 10,045개, 총 4.24GB	01범보다 무서운 곶감
구어	2020 (버전 1.0)	raw	공적 독백 2,490건 공적 대화 19,104건 준구어-대본 4,102건(드라마 ), 파일 25,696개, 총 6.73GB	"title": "EBS 정오뉴스 2018년 1월", "author": "박민영 외", "publisher": "EBS", "date": "20180000", "topic": "도서관의 변신, 메이커 스페이스에 대한 기사" "form": "미국의 공공도서관들이 새로운 모습으로 변신하고 있습니다.",
문서요약	2020 (버전 1.0)	tagged	신문 말뭉치에서 추출한 기사 4,389건이 대상 말뭉치에서 기사 추출 주제 및 요약 작성 문장 13,167개	기사 제목, 부제목-1문장, 기사, 기사 요약-2문장 이상
구문	2020 (버전 1.0)	tagged	총 300만 어절 문어 200만 어절 구어 200만 어절, 문어 1.07GB, 구어 583MB	"word_form": "판교신도시에서", "head": 5, "label": "NP_AJT"
형태분석	2020 (버전 1.0)	tagged	300만 어절(문어 200만 어절, 구어 100만 어절) 파일 2개, 총 2.31GB	"form": "제주", "label": "NNP"
추론확신성	2020	tagged	신문, 준구어 말뭉치에서 대상 담화 추출, 파일 1개, 총 272KB	변화에 대한 적응이 항상 성공적일 수는 없다. 당신을 힘들게 하는 팀원이 당신의 리더십을 키우는 원동력임을 기억한다면, 갈등을 겪을 때마다 당신은 더욱 발전할 수 있는 기회를
일상대화	2021	raw	파일 4,143개, 총 560MB	아 지금
신문	2021	raw	2020년 생산된 신문 기사 729,280건, 파일 35개, 총 2.95GB	대통령, 시장 방문만 하지 말고 실천해달라
국회회의록	2021	raw	5,395건(73,478,080어절), : 파일 5,395개, 총 307MB	회의를 시작하도록 하겠습니다.
추론확신성	2021	tagged	문어, 신문, 구어, 대화, 파일 1개, 총 1.457KB	선행 문장- 대상 문장 P5: 그렇게 바꾸어가면 만성 피로에 걸릴 일이 없거든요.- 후행 문장
온라인대화	2022	raw	총 74,665건(대화 메시지, 파일 47,421개, 총 835MB	"지금 운동하러가려고하는데 반팔 반바지 입으니까 선크림을 발라야돼
신문	2022	raw	2021년 생산된 신문 기사 978,342건, 파일 34개(zip 압축파일 1개, 898MB)	변이 바이러스’ 잡는 모더나 백신 2000만명 올 2분기 한국 온다
메신저	2022	raw	총 3,836건(대화 메시지 691,535개), 총 212MB	짜쟌
맞춤법교정	2022	tagged	약 400만 어절, 파일 1개, 총 517MB	하이하이
개체명연결	2022	tagged	총 약 1,100만 어절(웹 500만, 문어 300만, 구어 300만 어절) - 국립국어원 개체명 분석 말뭉치 2020(버전 2.1): 500만 어절(웹) - 국립국어원 개체명 분석 말뭉치 2021(버전 1.0): 600만 어절(문어 300만, 구어 300만 어절), 파일 323개, 총 255MB	"id": 2, "form": "고대", "label": "DT_DYNASTY", "begin": 27, "end": 29, "kid": "07070000000019", "wikiid": "378315", "URL": "https://ko.wikipedia.org/wiki/%EA%B3%A0%EC%A0%84_%EA%B3%A 0%EB%8C%80

국립국어원 말뭉치 신청 및 활용 방법 등은 아래 영상 링크에서 확인할 수 있다.

[모두의 말뭉치 활용 방법] 모두의 말뭉치 소개 및 파일 신청하기 (1회차)

모두의 말뭉치 이용자들을 위한 '모두의 말뭉치 활용 방법' 동영상 강의를 공개합니다. 강의 영상은 유튜브 채널을 통해 시청 가능합니다. ※ 추후 국립국어원 공식 유튜브로 이관 예정 강의 자료는 '모두의 말뭉치' 누리집의 '활용 지원 자료' 메뉴에서 내려받을 수 있습니다. (https://corpus.korean.go.kr/resultRequest/supportDataView.do?page=0&recordId=902&boardId=&base.condition=board.title&base.keyword=&size=10) ○ 주제 및 공개 일정 - 10월 14일(금): 모두의 말뭉치 소개 및 파일 신청하기 (1회차) - 10월 21일(금): 말뭉치 파일 탐색하기 (2회차) - 10월 28일(금): 원시 말뭉치 활용하기 (3회차) - 11월 4일(금): 어휘의미 분석 말뭉치를 활용한 단어 의미 중의성 해소 자료 구축 (4회차) - 11월 11일(금): 일상 대화 말뭉치를 활용한 ‘완전’의 부사적 용법 탐색 (5회차) - 11월 18일(금): 어휘 의미 분석 말뭉치를 사용한 ‘먹다’의 출현 환경 탐색 (6회차)

https://www.youtube.com/watch?v=bEWw5oqNugA

3. 사전 학습 모델의 발전과 학습용 데이터 세트

•

SKTBrain/KoBERT : 한국어 위키 문장(5M)

•

klue/roberta : 모두의 말뭉치, 커먼크롤, 나무위키, 네이버 뉴스 크롤링, 국민청원

•

monologg/KoELECTRA :
- v1, v2의 경우 약 14G Corpus (2.6B tokens) (뉴스, 위키, 나무위키)
- v3 모두의 말뭉치 약 20G 추가 (신문, 문어, 구어, 메신저, 웹)

•

ChatGPT 이후는 Llama 등 초거대 언어모델(LLM)이 등장하고 Fine tuning 또는 Instruction tuning 과 같이 튜닝 기술이 주요 연구와 개발 분야에 적용되기 시작하면서 초거대 언어모델에 입력으로 사용될 원시 데이터, 질의 응답, 멀티턴 데이터와 튜닝에 사용할 생성 데이터 및 생성 모델의 평가에 사용할 테스트 데이터들이 주로 구축되었다. 초거대 언어모델과 인스트럭션 데이터는 다음 편에서 다룬다.

참고 자료

•

박진호(2004), 한국어 정보화와 구문분석, 월인

•

Won Ik Cho, Sangwhan Moon, and Youngsook Song. 2020. Open Korean Corpora: A Practical Report. In Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS), pages 85–93, Online. Association for Computational Linguistics.

•

Won Ik Cho, Sangwhan Moon and Youngsook Song(2023), Revisiting Korean Corpus Studies through Technological Advances, " in Proc. PACLIC 2023

◦

발표 자료 :

https://www.slideshare.net/WonIkCho/2312-paclic

•

레포 :

https://github.com/ko-nlp/Open-korean-corpora