ETRI, 기존 대비 5배 빠른 이미지 생성 AI ‘코알라’ 공개

문장 입력하면 2초 만에 이미지 생성하고 모델 크기도 1/3 수준
이미지 생성 AI ‘코알라’ 3종과 대화형 시각언어모델 ‘코라바’ 2종 공개

 

[더테크=조재호 기자] 국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장을 입력하면 2초만에 이미지를 만드는 기술을 공개했다. 초고속 생성형 시각지능 연구에 탄력이 붙을 전망이다.

 

한국전자통신연구원(ETRI)은 이미지 생성 속도가 기존 대비 5배 빠른 AI ‘코알라(KOALA)’ 3종 모델과 이미지나 영상 등으로 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등을 일반에 공개한다고 26일 밝혔다.

 

우선 코알라 모델은 2.56B(25억) 파라미터를 지식 증류 기법을 적용해 700M(7억)으로 줄였다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가하기 때문이다.

 

연구진은 모델 크기를 1/3로 축소하고 고해상도 이미지 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선했다. 이미지 생성 속도를 2초 내외로 만들어 국내외 경쟁 속에서 8GB 정도의 그래픽처리장치(GPU)에서도 구동할 수 있도록 만들었다.

 

ETRI는 자체 개발한 파라미터별 ‘코알라’ 3종 모델을 허깅페이스에 공개했으며, 기존 공개 소프트웨어인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리2, 달리3의 4종을 포함, 총 9개 모델을 체해볼 수 있는 사이트를 제작했다.

 

아울러 챗GPT 같은 대화형 AI에 시각지능 기술을 더해 이미지나 비디오와 관련된 질의응답할 수 있는 대화형 시각언어모델인 ‘코라바(Ko-LLaVA)’모델도 함께 공개했다.

 

‘라바(LLaVA)’모델은 미국 위스콘신대학교 매디슨과 ETRI 연구진의 국제공동연구로 개발했다. 이 모델은 인공지능 분야 최우수학회인 뉴립스(NeurIPS‘23)에 발표했고 GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(LLaVA)를 활용했다.

 

연구진은 멀티모달 모델의 대안으로 떠오르고 있는 라바 모델을 기반으로 한글을 더욱 잘 이해할 수 있고 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다.

 

자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다. 사전 공개한 모델은 330M(Small), 580M(Base), 1.23B(Large)급은 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 그 결과 학습 속도는 2.7배, 추론에서는 1.4배 강화됐다.

 

이용주 ETRI 시각지능연구실장은 “향후 생성형 AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 모델을 공개할 계획이다”라며 “기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 AI 기술을 효과적으로 활용할 기회를 제공할 예정”이라고 말했다.

 

연구진은 현재 생성형 AI 시장이 문장 위주의 생성형 모델에서 멀티모달 모델로 변화가 이뤄지고 있으며, 모델 크기 경쟁에서 점차 작고 효율적인 모델이 출현할 것으로 내다봤다.

 

이번 모델 공개는 ETRI가 경량화된 모델로 중소기업의 AI 이용을 활성화해 관련 시장 생태계를 조성하겠다는 취지다. 연구진은 이번 모델을 개발하는 기술의 핵심 특허가 지식 증류 기반 경량화된 스테이블 디퓨전 기술이라고 설명했다. 이는 AI가 지식을 쌓아 작은 모델로 대형모델의 역할을 수행할 수 있는 기술이다.

 

향후, 연구진은 생성형 AI 모델에 시각지능 기술이 더해진 한국어 크로스모달 모델에 대한 수요가 늘어날 것으로 전망했다. 아울러 ETRI는 이번 기술 공개후 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전 할 계획이다.


관련기사

37건의 관련기사 더보기

배너

배너