'하이퍼클로바X' 글로벌 오픈소스 모델보다 높은 성능 보여

[더테크=전수연 기자] 네이버클라우드가 하이퍼클로바X(HyperCLOBA X)의 학습 방법, 성능 등 AI 모델의 세부 정보를 소개하는 논문을 공개했다.

네이버클라우드는 3일 하이퍼클로바X의 테크니컬 리포트를 공개했다고 4일 밝혔다.

리포트에 따르면 하이퍼클로바X는 성능 평가에서 글로벌 오픈소스 모델보다 높은 종합 점수를 획득했다. 특히 한국어, 일반상식, 수학, 코딩 부문에서는 리포트에서 비교 평가를 위해 선정한 14개 모델 중 1위를 기록해 특정 국가 언어 능력뿐만 아니라 보편 지식, 프로그래밍 등 다양한 분야 문제 해결력까지 갖춘 소버린 AI로서의 경쟁력을 입증했다.

폐쇄형(Closed-source)으로 개발된 모델들과의 비교에서도 하이퍼클로바X는 우수한 점수를 획득했다. 한국어 능력 부문에서는 세계 최고 수준 모델을 포함해 비교 평가를 위해 리포트에서 선정한 4개 모델 중 1위에 올랐고 영어 능력 분야에서도 같은 모델들 중 2위를 기록했다.

리포트는 하이퍼클로바X의 앞선 성능을 뒷받침하는 모델 학습 과정에 대해서도 설명했다. 하이퍼클로바X의 사전학습(Pretraining) 데이터는 대부분 한국어, 영어, 코드 데이터로 구성돼있다.

양질의 사전학습 데이터 구축을 위해 매우 짧거나 반복되는 저품질 문서는 데이터셋에서 제외됐고 개인정보가 포함된 데이터도 삭제됐다. 또한 정렬학습(Aligenment Learning)을 통해 사용자의 의도, 지시를 AI가 더 잘 이해할 수 있도록 고도화됐다.

리포트에서 강조된 하이퍼클로바X의 또 다른 특징은 다국어 능력(Multilinguality)이다. 학습 데이터의 대부분을 차지하는 한국어, 영어 정보를 활용해 제3의 언어로 추론하는 능력을 갖춘 것이 확인됐다.

일본어, 아랍어, 힌디어, 베트남어를 비롯한 아시아 국가 언어 능력을 평가했을 때 하이퍼클로바X는 주요 오픈소스 모델을 포함해 리포트에서 선정한 9개 모델 중 가장 높은 점수를 획득했으며 중국어에서만 같은 모델들 중 2위를 기록했다.

기계 번역 평가에서도 하이퍼클로바X는 다국어 능력이 입증됐다. 한국어를 일본어로, 일본어를 한국어로 번역하는 능력은 실제 서비스 중인 번역 모델 등 리포트에서 선정한 10개 모델 중 1위를 기록했으며 영어를 한국어로 번역하는 정확도도 동일한 10개 모델 중 가장 높은 점수를 기록했다.

하이퍼클로바X의 안전성을 위한 노력도 리포트에 소개됐다. ‘사회적 이슈와 편향’, ‘불법 행동’ 등 민감하거나 위험한 주제를 설정해 질의 데이터를 수집하고 이를 기반으로 레드티밍(Red teaming, 기술 또는 서비스의 취약점을 발견하고 검증하기 위해 의도적으로 공격을 시도하는 활동)을 수행해 모델의 취약점을 보완했다.

한편 하이퍼클로바X 테크니컬 리포트에는 한국어, 영어, 수학, 코딩, 상식, 사실성, 안전성 등 여러 분야에서 하이퍼클로바X·비교군 모델들의 성능 평가가 이뤄졌으며 각 분야의 성능 측정에는 신뢰성 있는 평가 체계(벤치마크)를 인용하거나 자체 개발한 평가 지표가 활용됐다.

예를 들어 하이퍼클로바X와 오픈소스 모델들의 한국어 능력을 측정하기 위해 한국판 AI 시험으로 알려진 KMMLU(Measuring Massive Multitask Language Understanding in Korean). 글로벌 AI 언어 이해 능력 평가 MMLU(Measuring Massive Multitask Language Understanding), 마이크로소프트가 개발한 AI 성능 평가 AGIEval(Artificial General Intelligence Evaluation) 등 6개의 벤치마크 점수를 종합해 결과가 도출됐다.

CATEGORY