[AI픽] AI 학습 병목 돌파구…한컴 PDF 엔진 개방

문서 텍스트·표·이미지까지 정형 데이터로 전환

(서울=연합뉴스) 오지은 기자 = 한글과컴퓨터가 인공지능(AI) 학습 과정에서 고질적인 문제로 지적된 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 오픈소스로 공개했다고 17일 밝혔다.

한컴이 공개한 오픈데이터로더 PDF는 한컴이 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다.

최근 AI 스타트업 허깅 스페이스가 PDF 문서를 기반으로 4억7천500만건의 대규모 데이터셋 '파인PDFs'를 공개했고 이를 활용하려는 기업의 움직임도 본격화됐다.

PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 AI 개발 과정에서 제약이 따랐다.

이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 지난 7월 PDF 기술 전문 기업 듀얼랩과 업무협약(MOU)을 체결한 뒤 첫 성과라고 한컴은 전했다.

오픈데이터로더 PDF는 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출, AI 학습에 활용할 수 있는 정형화된 데이터로 변환한다.

한컴에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 측정하는 지표인 NID에서 다른 기술보다 85% 높은 수치를 기록했다.

오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다.

built@yna.co.kr