WebGPU를 통한 private 생성 AI의 Hybrid Inference

Author

고석현 / CEO

Generative AI를 위한 최근의 기술 동향

WebAssembly 및 WebGPU 등 트렌디한 기술에 대한 이야기

WebGPU

•

WebAssembly 등 비교적 최근에 사용되기 시작하여 자바스크립트 대체재가 아닌 보완재로 기능

•

GPGPU기반 범용 연산 가속이 강점

•

2023년 5월 Chrome113부터 시범적으로 동작

•

Microsoft DirectX, 크로노스 그룹의 벌컨, 애플의 메탈 등

WebGPU 구조

•

웹 기능 확장으로 웹 어셈블리는 네이티브 언어로 구성

•

웹 어셈블리는 컴파일 후 웹을 통해 파일로 전달되어 실행

•

웹 GPU는 웹 어셈블리 기반에서 고성능을 위해 만들어진 (비교적) 고수준 api Apapter 구현

모델 플랫폼의 비용과 기술

•

네이티브 GPU API와 WebGPU API 등 플랫폼 별로 동작

•

Diffusion 모델을 유통하는 플랫폼

•

모델의 비용과 실험 비용 문제 외에도 표준 및 기술적인 문제 등이 존재

현 상황에서 우리가 할 수 있는 것

•

성능과 개인화를 고려한 AI 모델

•

개인화된 LLM은 핸드폰에 탑재되었을 때 AR 기술을 혁신할 가능성이 있음

Web 기반 어플리케이션에서의 Native 지원

•

Chromium 기반 오픈소스의 장점을 취합

•

Electron으로 빌드한 어플리케이션에서 GPU 가속 가능

기술적 선택지를 고민하며 생성형 AR 기술을 활용하는 방법

•

인프라 구축에는 많은 비용이 들지만, 개인화된 LLM과 분리된 GPU 모더를 사용해도 좋은 선택지!!

•

개인화된 LLM은 핸드폰에 탑재하여 AR 기술을 혁신 가능

•

지금은 생성형 AR 기술을 활용하기에 가장 적합한 환경!

•

기존의 네이티브 GPU에 비해서 높은 생산성

pain point

•

생성형 AI를 완전히 커스텀하기는 어려움

•

검색 기반 지식을 많이 사용하거나  임베딩 모델 사용

우리가 할 수 있는 전략적 선택

•

튜닝이 틀어지거나 기존의 논리적 지식을 망각하는 문제 해결

•

프라이빗한 지식이 외부로 유출될 가능성을 낮춤

•

벡터 DB를 통해서 프롬프트에 인젝션하는 방식으로 꽤 많은 것들이 해결할 수 있을 것으로 기대

개인화된 LLM을 핸드폰에 넣고 다니면서 이를 통해 세상에 긍정적 영향을 주는 방향성!

모델 구성

•

인프라 구축에는 많은 비용이 들지만, 개인화된 LLM과 분리된 GPU 모더를 사용하는 것도 좋은 선택지!

•

다만 아직 모바일 지원은 미흡한 초기 단계

개인화 LLM

•

일반적인 언어를 구성하는 모델, 계산력을 담당하는 모델, 과학적 지식과 상식을 담당하는 모델 등 여러 개 전문가 모델을 연합

•

개인화된 LLM을 핸드폰에 탑재하여 AR 기술을 혁신 가능

•

지금은 생성형 AR 기술을 활용하기에 가장 적합한 환경

•

WebGPU를 쓰는 작은 모델이 더 개인적인 LLM을 담당하고 동시에 큰 LLM이 주는 논리적 구조와 답변의 다양성을 사전 지시

•

높은 추론 성능을 가진 LLM 모델을 백본으로 쓰고 우리 회사나 개인에 좀 더 맞춰져 있는 전문가 모델을 개인 디바이스(또는 GPU, 웹사이트)에 휴대

기술적 선택지를 고민하며 생성형 AR 기술을 활용하는 방법

•

인프라 구축에는 많은 비용이 들지만, 개인화된 LMM과 분리된 GPU 모더를 사용해도 좋은 선택지

•

개인화된 LMM은 핸드폰에 탑재하여 AR 기술을 혁신할 수 있음

•

지금은 생성형 AR 기술을 활용하기에 가장 적합한 환경

•

MLC와 같은 오픈소스 영역에 굉장히 큰 발전 

•

최근에 Multi GPU와 AMD와 관련된 내용들도 릴리즈가 되기 시작

•

Apache의 TVM 등을 통해 ML 관련 파이프라인 혹은 실제 오퍼레이션들을 컴파일할 수 있게 됨