한컴, PDF 데이터 처리 오픈소스로 공개…AI 학습 ‘병목’ 해소

한컴이 공개한 오픈데이터로더 PDF 공식 깃허브 페이지. [사진=한글과컴퓨터]

[더테크 이승수 기자] 한글과컴퓨터(이하 한컴)가 AI 학습 과정에서 난제로 꼽혀온 PDF 문서 데이터 처리 문제를 해결할 핵심 기술을 글로벌 오픈소스로 17일 공개했다. 새롭게 선보인 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 한컴의 축적된 문서 처리 기술력을 바탕으로 개발된 PDF 데이터 추출 엔진으로, 글로벌 AI 생태계 확산의 기반이 될 전망이다.

최근 AI 분야에서는 PDF 문서를 활용한 대규모 데이터셋 공개가 이어지고 있다. 허깅 페이스(Hugging Face)는 PDF 문서를 기반으로 약 4억 7,500만 건 규모의 데이터셋 ‘FinePDFs’를 공개했으며, 이를 활용하려는 기업들의 움직임도 본격화되고 있다. 그러나 PDF는 복잡한 내부 구조 때문에 AI 학습용 데이터 추출이 쉽지 않아 ‘데이터 감옥’으로 불리며 개발 과정에서 제약이 많았다.

이번 오픈소스 프로젝트는 한컴이 지난 7월 PDF 전문 기업 듀얼랩(Dual Lab)과 체결한 업무협약(MOU)의 첫 성과다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며, AI 생태계 확장을 목표로 하고 있다. 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 속도로 추출하며, JSON, Markdown, HTML 등 AI 학습에 바로 활용 가능한 정형화된 데이터로 변환한다.

한컴이 공개한 벤치마크 결과에 따르면, 오픈데이터로더 PDF는 사람의 읽기 순서를 평가하는 NID 지표에서 경쟁 기술 대비 85%라는 높은 수치를 기록했다. 또한 금융·공공기관 등 민감 데이터를 다루는 환경에서도 완전 오프라인으로 작동해, 데이터 유출 위험을 원천 차단한다.

한컴은 이번 기술에 AI 학습 데이터의 안전성을 확보하는 기능도 포함시켰다. 프롬프트 인젝션(Prompt Injection) 등 악의적 콘텐츠 삽입 시도를 자동으로 감지·차단하며, 안전하고 신뢰성 있는 AI 학습 환경 구축에 기여할 것으로 기대된다.

한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고, AI 생태계 전반의 기술 고도화와 오픈소스 확산을 추진한다. 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와 연동·호환성을 강화하고, 깃허브(GitHub) 글로벌 개발자 커뮤니티와 협력을 이어갈 계획이다.

정지환 한컴 최고기술책임자(CTO)는 “AI 트랜스포메이션 시대에 오픈소스는 기업과 사회의 혁신, 경쟁력 확보를 위한 필수 전략”이라며, “이번 기술 공개를 통해 글로벌 개발자와 협력하며 PDF 데이터 추출 기술을 한 단계 더 발전시키겠다”고 밝혔다. 이어 그는 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화할 것”이라고 덧붙였다.

오픈데이터로더 PDF 프로젝트와 활용 사례는 한컴 공식 홈페이지에서 확인 가능하며, 오픈소스 코드는 깃허브 공식 저장소를 통해 제공된다.

CATEGORY