업스테이지, 고성능 한국어 LLM 생태계 구축 ‘앞장’

1조 토큰 모으는 ‘1T 클럽’ 발족…한국어 LLM 개발 추진
데이터 제공자에게 모델제공과 수익공유하는 상생모델 제시

 

[더테크=조명의 기자] 업스테이지가 고성능 한국어 LLM 생태계 구축에 앞장선다.

 

업스테이지는 한국어 데이터 부족 문제를 해결하고 고성능 LLM(거대 언어 모델) 개발을 위해 ‘1T 클럽’을 발족한다고 14일 밝혔다. 

 

1T 클럽은 ‘1 Trillion 토큰 클럽’을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다. 

 

한국어 데이터의 부족 문제 해결과 함께 데이터 제공자와 모델 제작기업이 상생하는 생태계를 확립하는 것이 목표다. 

 

업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유해 한국문화 정서를 담아낼 수 있는 고품질의 LLM을 개발하고 다양한 분야의 생성형 AI 앱에 활용, AI 발전에 기여할 것으로 기대하고 있다. 

 

한국어 데이터는 대한민국 LLM 발전에 필수적이잠 현재 상당히 부족하고 저작권의 문제에도 직면해있다. 외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약하다. 

 

예를 들면 최근 오픈LLM 시장의 최고 모델로 불리는 메타의 ‘라마2’의 경우 2조개, 구글의 ‘람다’는 2조 8100억개 분량의 토큰데이터를 학습에 사용하고 있다. 하지만 한국어 데이터 학습량의 경우 GPT-3 기준으로 약 1억개로 비중은 0.01697%, 전체 언어 중 28위에 불과한 상황이다.

 

업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의를 진행 중이며, 다양한 분야의 리딩기업 및 파트너사들과 협력을 추진한다는 계획이다. 

 

업스테이지는 1T 클럽에 참여하는 파트너사에게 데이터 제공량에 비례해 API(응용프로그램 인터페이스) 사용료를 할인해주고, LLM의 API 사업으로 창출될 수익을 공유하는 혜택을 제공할 예정이다.  

 

특히 파트너사들이 제공하는 데이터를 모델의 한글 프리트레이닝 학습 용도로만 사용하고, 자체적인 탈옥방지(Jailbreak Check) 기술 적용 등으로 원문 추출은 물론 기타 용도로 사용하거나 외부로 외출을 방지한다.  

 

1T 클럽에 관심 있는 기업·기관은 업스테이지 홈페이지에서 신청하면 된다.

 

김성훈 업스테이지 대표는 “LLM은 생성형 인공지능의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다”며 “1T 클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발해 국내 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다하겠다”고 말했다.


관련기사

93건의 관련기사 더보기

배너