송영숙/ML research · 정책총괄
- 인공지능과 머신러닝의 기본 체계
- 🗂️1.1. 개념의 위계
- 🗂️1.2. 머신러닝의 주요 분류
- 인공지능의 발전 과정과 역사적 맥락
- 🗂️2.1. 초기 발전기 (1940-1990년대)
- 🗂️ 2.2. 현대적 발전 (2000년 이후)
- 🗂️2.3. 최신 트렌드
- 🗂️2.4. 딥러닝 모델의 흐름
- 마무리
인공지능과 머신러닝의 기본 체계
🗂️1.1. 개념의 위계
- 인공지능(AI): 인공지능(Artificial Intelligence·AI)’의 개념을 창시해 ‘인공지능의 아버지’로 불리는 마빈 민스키는 뇌 신경망을 모방해 컴퓨터의 논리회로를 만들면 컴퓨터도 지능을 가질 수 있다고 믿었습니다. 따라서 넓은 개념으로 인공지능은 기계가 인간과 유사한 지능적 행동을 할 수 있도록 만드는 기술 전반을 의미합니다. "강 인공지능과 약 인공지능"으로 나누는 기준이 일반적이었으나 최근에는, "응용 AI" 등의 실용적 구분을 시도하고 있으며 챗봇이나 음성비서 등에서 다양한 형태로 실용화되고 있습니다.
- 머신러닝(기계학습): 인공지능의 하위 분야입니다. Tom Mitchell은, *"프로그램이 어떤 작업(T)을 수행하는 데 있어, 경험(E)을 통해 성능 지표(P)가 향상된다면, 그 프로그램은 경험(E)으로부터 작업(T)을 학습했다고 할 수 있다"*고 정의했습니다.
- 딥러닝(Deep Learning): 머신러닝의 하위 개념으로, 뇌의 신경망을 모사한 심층 신경망(Deep Neural Network)을 사용하는 기법입니다.
- 자연어처리(NLP):
- 초거대 언어 모델(LLM, Large Language Model, LLM):
자연어처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술 분야입니다. 이는 단순한 단어나 문장의 기계적 처리를 넘어서, 언어가 가진 의미와 맥락을 파악하는 것을 목표로 합니다. NLP는 다양한 실용적 응용 분야를 가지고 있습니다. 예를 들어, 소셜 미디어 게시물의 감정을 자동으로 분석하거나, 한 언어에서 다른 언어로 텍스트를 번역하며, 긴 문서를 핵심 내용만 담아 요약하는 등의 작업을 수행할 수 있습니다. 또한 스팸 메일 필터링, 음성 인식, 문법 교정 등 일상생활에서 흔히 사용되는 많은 기술의 기반이 되고 있습니다.
초거대 언어 모델은 수조 개에 달하는 매개변수를 바탕으로 하는 신경망 모델로, 인터넷에서 수집된 방대한 양의 텍스트 데이터를 학습하여 인간의 언어를 깊이 있게 이해하고 생성할 수 있는 능력을 갖추고 있습니다. GPT나 BERT와 같은 모델들이 대표적입니다. 이러한 모델들은 단순한 문장 생성을 넘어서서 문맥을 파악하고 적절한 응답을 생성할 수 있으며, 질문에 답하거나, 글을 작성하거나, 코드를 생성하는 등 다양한 작업을 수행할 수 있습니다. 특히 이전 대화 내용을 기억하고 참조하면서 자연스러운 대화를 이어갈 수 있는 능력을 보여주고 있어, 챗봇이나 가상 비서와 같은 응용 프로그램에서 널리 활용되고 있습니다.
이해를 돕기 위해 인공지능에서 초거대 언어모델을 하나의 이미지로 표현하면 다음과 같습니다.
🗂️1.2. 머신러닝의 주요 분류
- 지도학습(Supervised Learning):
- 지도학습(Supervised Learning)은 입력 데이터와 그에 대응하는 정답(레이블)이 함께 제공되는 학습 방식입니다. 마치 학생이 문제와 정답을 함께 보면서 학습하는 것처럼, 알고리즘은 주어진 입력에 대해 올바른 출력을 예측하는 방법을 배웁니다. 예를 들어, 이메일이 스팸인지 아닌지를 분류하거나, 의료 영상에서 질병의 유무를 진단하는 등의 작업에서 널리 활용됩니다. 이 방식은 명확한 목표와 평가 기준이 있어 학습 효과를 측정하기 쉽다는 장점이 있습니다.
- 비지도학습(Unsupervised Learning):
- 비지도학습(Unsupervised Learning)은 정답 없이 데이터 자체의 구조나 패턴을 발견하는 학습 방식입니다. 데이터 안에 숨겨진 규칙성이나 그룹을 찾아내는 것이 주요 목표입니다. 예를 들어, 고객들의 구매 패턴을 분석하여 비슷한 성향의 그룹으로 나누거나, 정상적인 거래와 다른 패턴을 보이는 이상 거래를 탐지하는 데 사용됩니다. 이 방식은 사전에 정의된 정답이 없기 때문에, 데이터의 자연스러운 구조를 발견하는 데 적합합니다.
- 강화학습(Reinforcement Learning):
강화학습(Reinforcement Learning)은 에이전트가 환경과 상호작용하면서 시행착오를 통해 학습하는 방식입니다. 에이전트는 각 행동에 대해 보상이나 패널티를 받으면서, 장기적으로 더 높은 보상을 얻을 수 있는 최적의 행동 정책을 학습합니다. 이는 마치 아이가 걸음마를 배우는 과정과 유사합니다. 게임 AI가 대표적인 예시로, 체스나 바둑과 같은 게임에서 최적의 수를 찾는 데 활용됩니다. 또한 자율주행 차량이 다양한 도로 상황에서 적절한 주행 결정을 내리는 데도 사용됩니다.
인공지능의 발전 과정과 역사적 맥락
🗂️2.1. 초기 발전기 (1940-1990년대)
자연어처리의 역사는 2차 세계대전 시기부터 시작됩니다. 당시 군사적 필요성에 의해 자동 번역하는 기계 번역 연구가 시작되었습니다. 이는 컴퓨터를 이용해 인간의 언어를 처리하려는 최초의 시도였습니다. 1950년대부터 1990년대까지는 규칙 기반 접근이 자연어처리의 주류를 이루었습니다. 이 시기에는 언어학자들이 정의한 문법 규칙과 사전을 기반으로 컴퓨터가 텍스트를 이해하고 처리하도록 했습니다. 예를 들어, "주어 + 동사 + 목적어"와 같은 문장 구조 규칙을 프로그래밍하여 문장을 분석하는 방식이었습니다. 1990년대 초반에 들어서면서 통계 기반 기법이 등장하게 됩니다. 이는 컴퓨터의 성능 향상과 디지털화된 텍스트 데이터의 증가에 힘입은 것으로, 대규모 텍스트 데이터에서 통계적 패턴을 학습하는 방식입니다. 예를 들어, 특정 단어 다음에 어떤 단어가 올 확률이 높은지를 데이터로부터 학습하는 n-gram 모델 등이 개발되었습니다. 이러한 통계적 접근은 현대 자연어처리 발전의 토대가 되었습니다.
🗂️ 2.2. 현대적 발전 (2000년 이후)
- 데이터 증가와 컴퓨팅 파워 향상되면서 딥러닝 기술도 빠른 속도로 혁신을 이어 왔습니다. 예를 들어 CNN, RNN 모델이 등장했고 그 뒤를 이어 GPT, BERT 등의 Transformer 구조의 개발이 시도되었습니다.
🗂️2.3. 최신 트렌드
- Few-shot Learning
- Few-shot Learning은 기존의 딥러닝 모델들이 대량의 학습 데이터를 필요로 했던 한계를 극복하는 접근 방식입니다. 인간이 소수의 사례만으로도 새로운 개념을 학습할 수 있는 것처럼, AI 시스템도 적은 수의 예시만으로 새로운 작업을 효과적으로 수행할 수 있게 하는 기술로 알려져 있습니다.
- 멀티모달 학습
- 멀티모달 학습은 인공지능이 다양한 형태의 데이터를 통합적으로 처리하고 이해하는 능력을 의미합니다. 텍스트만을 다루거나 이미지만을 처리하는 것이 아니라, 텍스트, 이미지, 음성 등 여러 형태의 정보를 동시에 처리하고 이들 간의 관계를 이해할 수 있습니다. 예를 들어, 이미지를 보고 관련 설명을 생성하거나, 음성 명령을 텍스트로 변환하면서 동시에 그 의미를 이해하고 적절한 행동을 취하는 등의 복합적인 작업이 가능해졌습니다.
- 윤리적 AI
- 윤리적 AI는 인공지능 기술이 발전함에 따라 더욱 중요해지는 영역입니다. 이는 AI 시스템에서 발생할 수 있는 편향성을 제거하고, 시스템의 안전성과 신뢰성을 강화하는 것을 목표로 합니다. 예를 들어, 성별이나 인종에 따른 차별적 결과를 방지하고, AI의 의사결정 과정을 투명하게 만들며, 개인정보 보호와 같은 윤리적 기준을 준수하는 것이 포함됩니다. 이는 단순한 기술적 성능 향상을 넘어, AI 시스템이 사회적 책임을 다하고 인간과 조화롭게 공존할 수 있도록 하는 중요한 발전 방향입니다.
🗂️2.4. 딥러닝 모델의 흐름
Word2Vec과 GloVe가 단어의 의미를 벡터 공간에 표현하는 방식을 제시하면서 언어 모델의 표현 학습이 크게 향상되었습니다.
- Seq2Seq가 기계번역 성능을 향상시켰고 이후 챗봇 모델 등에서도 두루 사용되었습니다. 뒤이어 Attention 메커니즘의 도입으로 긴 시퀀스 처리가 가능해졌다는 점에서 모델 성능이 크게 향상되었다고 할 수 있습니다.
이 시기에는 Transformer 아키텍처가 CNN이나 RNN을 대체하며 자연어 처리의 표준처럼 사용되었고 BERT 류의 모델과 GPT-2가 각각 인코더와 디코더 측면에서 다른 방향에서 발전하며 성능을 향상시켰습니다.
- 초거대 언어 모델 이후
A Survey of LLMs(https://arxiv.org/abs/2303.18223)의 그림을 편집
GPT-3를 시작으로 모델의 크기가 기하급수적으로 증가하기 시작했고 그 이후에는 음성, 이미지 등을 처리할 수 있는 멀티 모달로 모델이 등장했습니다.
마무리
이 분야의 주요 논문과 강의, 책을 추천하면서 마무리하고자 합니다. 학습 기반의 모델이 지니는 한계로 인해 등장하기 시작한 또 하나의 흐름이 RAG인데 이에 대해서는 다음 편에서 다루도록 하겠습니다.
- 핵심 논문:
- "Attention Is All You Need" (Vaswani et al., 2017) - 어텐션(Attention) 구현 등의 Transformer 구조 제안
- "Language Models are Few-Shot Learners" (Brown et al., 2020) - GPT-3에서 프롬프트 만으로 성능을 발휘하는 것에 대한 이해를 도움
- "Constitutional AI" (Askell et al., 2023) - AI 윤리와 안전성 프레임워크에 대한 제안
- 참고할 책
- 이기창 (2019), 한국어 임베딩 , 에이콘출판
- 오렐리앙 제롱 저자(글) · 박해선 번역(2023), 핸즈온 머신러닝, 한빛미디어.
- 강다솔(2024), 한 권으로 끝내는 실전 LLM 파인튜닝, 위키북스
- Dan Jurafsky and James H . Martin(2020), Speech and Language Processing ( 3rd ed . draft)
- 영상
- 서울대학교 산업공학과 DSBA 연구실(주로 논문 리뷰)
https://www.youtube.com/channel/UCPq01cgCcEwhXl7BvcwIQyg
- CS224n: Natural Language Processing with Deep Learning 강좌(영어)
https://www.youtube.com/playlist?list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
- 워터루 대학교 강의 영상