2025.04.04 (금)
T 뉴스
멀티미디어
독자 · 소통
[더테크=조재호 기자] 한글과컴퓨터가 문서의 AI 데이터화를 위한 전처리 기술을 모듈화한 소프트웨어 개발 키트를 출시했다. 대규모 언어모델의 단점인 환각 현상을 최소화할 대안으로 검색 증강 생성 기술이 떠오르고 있는 시점에서 기대를 모은다. 한글과컴퓨터는 18일 PDF와 오피스 문서에서 AI 데이터를 추출하는 SDK(소프트웨어 개발 키트)인 ‘한컴 데이터 로더’를 출시하고 본격적인 글로벌 B2B 세일즈에 나섰다. 최근 AI 업계에서 LLM(대규모 언어모델)의 단점인 환각 현상을 최소화할 해결책으로 ‘검색 증강 생성(Retrieval-Augmented Generation, RAG)’이 떠오르고 있다. RAG는 특정 데이터베이스나 문서 집합으로부터 관련 정보를 검색하고 LLM에 적용해 적절한 답변으로 텍스트를 생성해 실시간으로 정보가 업데이트되며 정확도가 높은 것이 특징이다. 다만 구조화되지 않은 문서에서는 데이터 추출이 어려운 실정이다. 따라서 기업들의 문서를 AI가 학습하기 좋은 형태로 데이터화하는 전처리 기술이 중요해졌다. 한컴은 지난 35년간 축적한 문서 기술을 바탕으로 문서의 AI 데이터화를 위한 전처리 기술을 모듈화해 ‘한컴 데이터 로더’를 출시했다.
더테크는 ‘스마트 테크 전문‘ 미디어입니다. AI, 사물인터넷, 미래모빌리티 등 인더스트리 4.0 시대를 이끌어갈 딥테크 분야를 중심으로 다양한 ICT 산업컨텐츠를 제공하고 있습니다. 뉴스레터 발송을 위한 최소한의 개인정보를 수집하고 있습니다. 수집된 정보는 발송 외 다른 목적으로 이용되지 않으며 서비스 종료가 되거나 구독을 해지할 경우 즉시 파기됩니다.