home

Introducing STORM Document AI(가제)

Category
8 more properties
이 아티클에서는 STORM Document AI 데모를 소개합니다. Document AI 데모는 최신 Vision LLM 기술을 기반으로 텍스트, 이미지, 표 등 다양한 요소가 포함된 복잡한 문서를 정보의 왜곡 없이 정확하고 빠르게 분석하여 유의미한 데이터를 추출하고 즉시 활용 가능한 형태로 변환합니다. 이를 통해 기업들은 문서 데이터의 처리를 자동화하고, 기존에 AI 기술에서 활용하지 못했던 방대한 문서 데이터를 활용할 수 있게 됩니다.

필요성

비정형화된 문서에서 필요한 데이터를 정확하게 추출하여 분석 정확도를 높임
GPT 등을 사용할 수 없는 보안 문서 등에 온프레미스(On-premise) 환경을 구축하고자 할때 다수의 비정형 데이터를 처리해야 하는 경우가 비일비재함

관련 기술

Document Layout Analysis : 문서의 물리적 배치와 레이아웃을 이해하고 분석하는 컴퓨터 비전 기술의 일종
LayoutLM(Zhou, F et al, 2022) : Text, Layout, Image에 있는 정보를 활용하여 모델의 성능을 높이기 위해 텍스트 전처리 단계에서 이미지로 되어 있는 표 등을 레이아웃 정보를 활용함
문서에서 필요한 요소를 탐지하고 추출하기 위해 레이아웃의 변화를 최소화하고 정보를 최대로 하는 변환 기술 필요

기술 난이도

컴퓨터 비전과 딥러닝 지식 필요
문서 레이아웃 분석: PDF 문서에서 제목, 저자, 초록, 본문, 그림, 표 등 주요 영역을 자동으로 탐지하고 분류하는 작업
컨텍스트 기반 탐지: 페이지 번호, ROI(관심 영역) 위치/크기 등 문맥 정보를 활용한 개선된 탐지 방법
Carlos Soto and Shinjae Yoo. 2019.
1.
Spurious Text (불필요한 텍스트)
페이지 번호 등 본문의 주요 정보와 관계없는 부가적인 텍스트가 본문 중간에 추출되는 문제
2.
Conjoined Text (결합된 텍스트)
그림 캡션이 본문 텍스트와 연결되어 추출되는 등 서로 다른 섹션이나 영역의 텍스트가 부적절하게 결합되어 추출되는 문제
3.
Out-of-order Text (순서가 뒤바뀐 텍스트)
텍스트가 원래 문서의 논리적 순서와 다르게 추출되는 문제
단순 키워드 검색에는 문제가 되지 않으나 맥락 정보가 필요할 때는 심각한 오류가 발생

관련 데이터 세트

PubLayNet
100만 개 이상의 PubMed Central PDF 논문을 자동으로 매칭하여 생성한 대규모 데이터셋
DocBank
50만 개의 문서 페이지에 대해 토큰 수준의 세밀한 주석이 달린 벤치마크 데이터셋
M^6Doc
다중 형식, 다중 유형, 다중 레이아웃, 다중 언어, 다중 주석 범주의 대규모 문서 레이아웃 분석 데이터셋
DocLayNet
다양한 데이터 소스에서 수집된 80,863개의 수동 주석 처리된 페이지를 포함하는 공개 데이터셋

https://document.sionic.ai/ 를 통한 레이아웃 변환 예시

표를 업로드하고 마크다운으로 변환을 클릭하면 업로드 성공 및 변환에 시간이 결린다는 알림과 함께 변환 과정이 진행된다.
테스트를 위해 https://huggingface.co/datasets/ds4sd/DocLayNet 에 있는 표를 업로드
마크다운으로 변환된 표가 오른쪽에 생성되고 가운데 하단에 다운로드 버튼이 활성화 되어 있다.

https://claude.ai/에게 표를 이미지로 제공한 결과와 마크다운 형식으로 제공한 결과 차이

<이미지로 제공한 경우>
<마크다운 형식으로 제공한 경우>
이미지를 제공했을 때는 이미지 해석에 그치고 있으나 md 파일에 제공한 결과는 전년 대비 분석이나 주목할만한 변화 등 표 전체에서 주목할만한 가치를 추출해 내고 있는 것을 확인할 수 있다. 표가 복잡하고 모델의 성능이 낮을수록 결과에 더 많은 성능 변화를 이끌어 낼 수 있을 것이다.