[더테크 뉴스] 알리바바그룹이 동남아시아 지역의 특성을 고려한 특화 거대 언어 모델인 SeaLLM을 공개했다. 다양한 언어를 이해하는 인공지능(AI) 개발과 함께 현지 특화 서비스 개발 지원에 큰 역할을 담당할 수 있을 것으로 보인다.
알리바바의 글로벌 연구 이니셔티브인 다모 아카데미는 동남아시아권 거대 언어모델인 SeaLLM을 출시했다고 19일밝혔다. 동남아시아 지역은 다양한 언어 특성을 고려해 설계된 언어모델의 등장은 기술의 포용성 측면에서 발전을 의미한다.
SeaLLM은 130억, 70억 매개변수 버전으로 제공되며 베트남어와 인도네시아어, 말레이어, 크메르어, 라오스어, 타갈로그어, 버마어 등 개별 지역 언어에 최적화된 지원을 제공한다.
대화형 모델인 SeaLLM-챗은 독자적인 문화 특성에 뛰어난 적응성을 보이고 현지 관슴과 스타일, 법적 프레임워크에 부합한 결과를 제공해 동남아시아 시장에 진출하는 기업들에게 유용한 챗봇 어시스턴스로 부상하고 있다.
현재 SeaLLM은 허깅페이스에 오픈소스로 제공되며 체크포인트를 공개해 연구 및 상업적 용도로 사용할 수 있다.
리동 빙(Lidong Bing) 알리바바 다모 아카데미 언어 기술 연구소 소장은 "기술 격차를 해소하기 위한 지속적인 노력의 일환으로 현지언어 이해뿐만 아니라 동남아시아의 문화적 요소 반영한 AI 모델 ‘SeaLLM’을 공개해 기쁘다”며 “이번 혁신은 AI의 민주화를 촉진해 역사적으로 디지털 영역에서 소외되어 온 지역사회들에 힘을 실어줄 수 있을 것”이라고 말했다.
SeaLLM의 기초 모델은 동남아시아의 언어를 포함한 고품질의 데이터를 사전 학습해 특정 상황과 대화의 뉘앙스까지 이해할 수 있다. 해당 작업은 미세 조정 기술과 맞춤형 다국어 세트를 활용한 SeaLLM-챗의 기반이 된다. 따라서 해당 모델을 활용한 챗봇 어시스턴스는 지역별 맞춤 설정이 가능하다.
아울러 라틴어 계열이 아닌 언어에 대해 효율성이 좋은 점도 특징인데 SeaLLM은 버마어, 크메르어, 라오스어, 태국어 등 비라틴권 언어에 대해 ChatGPT보다 9배 더 긴 텍스트를 해석하고 처리할 수 있으며, 동일한 길이의 텍스트도 적은 수의 토큰을 활용해 해결한다.
SeaLLM은 초등학교부터 대학 입시까지 테스트해볼 수 있는 M3Exam 벤치마크에서 동남아시아 지역의 언어로된 과학, 화학, 물리학, 경제학 등 다양한 과목에서 동급 모델보다 뛰어난 성능을 보였다, 데이터가 제한적인 저자원 언어와 영어의 기계번역 능력을 평가하는 플로레스(FLORES) 벤치마크에서도 기존 모델을 능가하는 점수를 기록했다.
알리바바의 SeaLLM의 보다 자세한 기능은 허깅페이스의 프로젝트 페이지나 기술 보고서에서 확인할 수있다.