하이퍼클로바X, 한국판 AI 평가 최고점 기록해

[더테크=조재호 기자] 하이퍼클로바X가 국내 언어모델 연구팀의 인공지능(AI) 성능 평가 지표에서 GPT나 Gemini보다 높은 평균 점수를 기록하면서 경쟁력을 입증했다.

네이버클라우드는 27일 하이퍼클로바X가 한국판 AI 성능 평가 체계인 ‘KMMLU(Measuring Massive Multitask Language Understanding in Korean)’에서 오픈AI의 GPT나 구글의 제미나이보다 높은 점수를 기록하며 소버린 AI로서 우수한 성능 경쟁력을 확인할 수 있었다고 밝혔다.

KMMLU는 국내 대표적인 오픈소스 언어모델 연구팀인 ‘해례(HAE-RAE)’가 이끈 AI 성능 평가 지표 구축 프로젝트다. 인문학, 사회학, 과학·기술 등 45개 분야와 수학적 추론 능력과 같이 세계에서 공통으로 적용되는 지식을 묻는 문항 비중이 80%, 한반도 지리와 국내법 등 국내 특화 문제 문항 20%로 AI의 보편적 능력과 로컬 지식을 고르게 측정해 한국 사용자에게 유용한 AI를 종합적으로 판단할 수 있다.

오픈AI나 구글 등 북미 기술 기업들이 자사 AI 성능을 확인하기 위해 사용하는 지표인 MMLU를 번역하는 경우, 문항의 부정확한 번역과 함께 문제에 내재된 영어권 국가의 문화적 맥락으로 AI 모델의 한국어 능력을 제대로 가늠하기 어려운 한계가 있었다.

KMMLU는 한국어 시험 문제들로 구성돼 국내외 AI의 한국어 이해 역량을 더욱 정확하게 판단할 수 있다.

KMMLU 연구 논문에 따르면 하이퍼클로바X는 오픈AI의 GPT-3.5-Turbo와 구글의 Gemini-Pro보다 높은 점수를 기록하며 일반 지식과 한국 특화 지식을 종합한 성능이 글로벌 빅테크 AI와 경쟁할 수 있는 수준임을 확인했다.

한국 특화 지식 기준으로는 오픈AI의 최신 모델인 GPT-4보다 높은 점수를 기록해 교육이나 법률 등 로컬 정보의 중요성이 큰 산업 분야는 하이퍼클로바X가 가장 유용할 수 있음을 보였다.

네이버클라우드는 KMMLU를 통해 입증된 하이퍼클로바X의 성능 경쟁력을 바탕으로 보안과 성능을 모두 갖춘 ‘소버린(Sovereign) AI’ 솔루션으로 발전시켜나가겠다는 계획이다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “하이퍼클로바X는 보편 지식에 한국 특화 문제 해결 능력을 더한 소버린 AI로 국내 산업계 전반에 도입이 이뤄지고 있다”며 “자국어 중심 AI에 대한 전세계 수요가 관찰되는 만큼 국내에서 확인한 AI 경쟁력을 바탕으로 향후 글로벌 시장 진출에도 속도를 낼 것”이라고 말했다.