GPT 넘어서는 '공개형 멀티모달 LLM' 출시됐다

[더테크=전수연 기자] 국내 연구진이 오픈AI의 GPT-4V와 구글의 제미나이 프로 수준의 멀티모달 LLM을 개발했다.

KAIST는 전기및전자공학부 노용만 교수 연구팀이 기업에서 비공개하고 있는 상업 모델인 LLM의 시각 성능을 뛰어넘는 공개형 멀티모달 LLM을 출시했다고 20일 밝혔다.

KAIST는 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 멀티모달 LLM이 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준의 모델이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다고 분석했다.

이에 노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 LLM의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

연구팀이 개발한 첫 번째 기술 콜라보는 현존하는 공개형 멀티모달 LLM이 비공개형 모델의 성능에 비해 현저하게 낮은 이유와 일차적으로 물체 수준에 대한 이미지 이해 능력이 떨어진다는 점을 우선 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상하기 위해 연구팀은 이미지 내의 정보를 배경, 물체 단위로 분할하고 각 배경과 물체에 대한 정보를 멀티모달 LLM에 입력으로 직접 넣어주는 새로운 방법 ‘크레용 프롬프트’라는 시각적 프롬프트를 새롭게 제안했다.

또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 학습 전략 ‘듀얼 큐로라’를 제안했다.

이를 통해 콜라보 멀티모달 LLM은 이미지 내에서 배경과 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다.

두 번째 LLM 모아이는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아 만들어졌다.

또한 기존 멀티모달 LLM이 텍스트에 의미적으로 정렬된 시각 인코더만을 사용하기 때문에 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족한 점이 보완됐다.

모아이는 컴퓨팅 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤 멀티모달 LLM에 입력으로 직접 사용한다.

아울러 연구팀은 모든 모델을 공개형 LLM으로 출시했기 때문에 이 모델이 멀티모달 LLM 발전에 기여할 것으로 기대하고 있다.

CATEGORY