헬스케어 분야 초거대 언어 모델 TTA 성능 검증 통과
[더테크=조재호 기자] 미디어젠 컨소시엄이 헬스케어 AI 구축을 위한 질의응답 데이터가 성능 검증을 통과했다. 수집된 데이터는 올해 상반기 한국지능정보사회진흥원이 운영하는 AI-Hub를 통해 일반에 공개될 예정이다. 미디어젠 컨소시엄은 초거대 AI 모델을 위한 인공지능 데이터 사업에서 구축된 데이터를 활용해 제작한 초거대 언어 모델(LLM)이 TTA 성능검증을 통과했다고 17일 밝혔다. 이번 사업은 AI 최신 기술인 초거대 AI 언어 모델 및 응용 서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로 일반인과 의료진의 질의응답 데이터와 전문 의료 서적 데이터, 증강 데이터 등으로 구성됐다. 미디어젠 컨소시엄은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 LLM을 위한 학습용 데이터 구축 사업자로 최종 선정됐고 약 2억 어절의 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축했다. 미디어젠 컨소시엄은 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업이 뭉쳐 데이터를 구축했다. 구축된 데이터는 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA 정밀