[더테크=조재호 기자] 미디어젠 컨소시엄이 헬스케어 AI 구축을 위한 질의응답 데이터가 성능 검증을 통과했다. 수집된 데이터는 올해 상반기 한국지능정보사회진흥원이 운영하는 AI-Hub를 통해 일반에 공개될 예정이다.
미디어젠 컨소시엄은 초거대 AI 모델을 위한 인공지능 데이터 사업에서 구축된 데이터를 활용해 제작한 초거대 언어 모델(LLM)이 TTA 성능검증을 통과했다고 17일 밝혔다.
이번 사업은 AI 최신 기술인 초거대 AI 언어 모델 및 응용 서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로 일반인과 의료진의 질의응답 데이터와 전문 의료 서적 데이터, 증강 데이터 등으로 구성됐다.
미디어젠 컨소시엄은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 LLM을 위한 학습용 데이터 구축 사업자로 최종 선정됐고 약 2억 어절의 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축했다.
미디어젠 컨소시엄은 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업이 뭉쳐 데이터를 구축했다. 구축된 데이터는 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA 정밀 검증에서 모두 합격 판정을 받았다.
이번 TTA 검증을 통과한 데이터는 일반인의 질문데이터와 의료진이 직접 작성한 헬스케어 데이터가 질의응답 쌍을 이루고 있으며 직접 수집된 데이터를 기반으로 증강됐다. 데이터 증강에는 Polyglot을 기반으로 미디어젠이 직접 개발한 증강 모델이 활용됐으며 초거대 AI 질의응답 모델은 한국전자통신원(ETRI)의 T5 기반 파인 튜닝 모델로 시험을 진행했다.
아울러 모델 성능을 평가하는 TTA 유효성 검증에서 챗봇의 답변 성공률이 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 달성하면서 데이터 안전성과 함께 모델의 성능도 공식적 입증을 받았다.
이번 사업을 총괄한 송민규 미디어젠 상무는 “초거대 AI 모델의 최적 성능 확보를 위한 증강 데이터와 생성형 질의응답 모델이 TTA 성능 검증을 통과해 매우 기쁘다”며 “각 산업 영역에서 직접적으로 활용할 수 있는 사업화 초거대 언어 모델을 꾸준히 발표할 예정”이라고 밝혔다.
한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 지난 2023년 12월 말까지 데이터 수집 및 AI 모델 검증을 완료했다. 이번 AI 모델과 데이터는 2024년 상반기 NIA가 운영하는 AI-Hub를 통해 모든 데이터가 일반에 공개될 예정이다.