송영숙 / ML Researcher
도입
- “CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues” 데이터 세트와 같은 경우는 인공지능 모델의 상식적 사고와 연관되어 있음. 상식적 사고의 형성은 성인인 사람에게는 쉬운 일이지만 인공지능에게는 아직 부족한 일상다반사에 기초한다.
- 또한 사실적 사고와는 달리 행간을 읽고 해석해야 하기 때문에 추론 영역에 속한다.
- CICERO-v1과 CICERO-v2 논문이 있는데 여기서는 v2를 중심으로 다룬다.
- 아래 이미지에서와 같이 일상적으로 일어나는 다양한 일들(사람은 상식적으로 알고 있는 것)로부터 5가지 상황((원인, 후행 사건, 전제 조건, 내적 동기, 감정 반응)을 추론해서 문장을 생성하는 과제 이다.
- 평가는 인공지능이 인간과 같은 추론 능력을 해내는가에 있다.
위의 이미지를 다른 예를 통해서 좀 더 구체적으로 살펴보면 다음과 같다.
대화 예시
A: 무엇을 도와드릴까요? B: 오렌지 좀 주세요. A: 플로리다 오렌지와 캘리포니아 오렌지 중 뭘로 드릴까요?
B: 뭐가 더 나아요? A: 플로리다 오렌지는 달콤하지만 크기가 작고 캘리포니아 오렌지는 씨가 없어요. B: 그럼 캘리포니아 오렌지 다섯 개 주세요. A: 다른 거 더 필요한 거 있으세요? B: 바나나도 좀 먹고 싶어요. 어떻게 판매하나요?
A: 1달러에 1파운드 드립니다. 몇 개 드릴까요? B: 네 개를 주시면 얼마나 될까요?
A: 1파운드입니다. B: 좋아요. 얼마죠?
A: 3달러입니다. B: 여기 있습니다. A: 감사합니다
질문 : 붉은색으로 표시된 목표 대화(캘리포니아 오렌지 다섯 개 주세요) 이후 어떤 이벤트가 발생했거나 발생할 가능성이 있나요?
✅ 상인은 캘리포니아 오렌지 5개를 포장했습니다.
❌ 상인은 캘리포니아 오렌지 2개를 포장했습니다.
❌ 상인은 캘리포니아 라임 2개를 포장했습니다.
❌ 상인은 캘리포니아 오렌지 1개를 포장했습니다.
❌ 상인의 친구가 캘리포니아 오렌지 5개를 포장했습니다.
모델과 결과 해석
논문에서는 먼저, 생성 모델인 T5 모델에 BLUE2, METERO, ROUGE, CIDEr, Sem-Sim 로 그 결과를 제출했다.
RoBERTa, ELECTRA와 같은 분류 모델을 통한 점수에서는 동기(Motivation) 점수가 가장 높다.
추가 분석
한국어 모델에 대해서도 이와 같은 일반 상식 문제는 도전해 볼 과제라고 할 수 있다. 다음은 클로버 스튜디오를 통해서 간단히 테스트해 본 결과이다.
위의 과정을 정답이 열려 있는 추론 문제로 변형하지 않고 맥락 속에서 정답을 찾는가 하는 문제로 푼 이유는 (1) 객관적 평가가 가능하기 때문이고 (2) 맥락 이해 능력과 상상 능력(A.K.A 뇌피셜 추론)을 구분해야 하기 때문으로 보인다.
즉, 추론 문제에서 가장 중요한 것은 객과적 추론 근거를 가지고 사람과 같이 추론했는가 하는 것이다.
논문 출처
@inproceedings{ghosal-etal-2022-cicero,
title = "{CICERO}: A Dataset for Contextualized Commonsense Inference in Dialogues",
author = "Ghosal, Deepanway and
Shen, Siqi and
Majumder, Navonil and
Mihalcea, Rada and
Poria, Soujanya",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.acl-long.344",
pages = "5010--5028",
}