[더테크=전수연 기자] 영상이해 초거대 AI 개발 기업 트웰브랩스(Twelve Labs)가 영상 언어 생성 모델을 통해 긴 영상을 분석하고 정보를 제공하는 기능을 선보였다.
트웰브랩스는 초거대 AI 영상언어 생성 모델 페가수스(Pegasus-1)를 9일 정식 공개했다.
이번에 공개된 페가수스 모델은 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델(Video Language Foundation Model)이다. 긴 영상을 마치 사람처럼 정교하게 텍스트로 요약하거나 챗GPT를 사용하듯 영상에 관한 자유로운 질의응답을 가능하게 한다.
트웰브랩스는 자체 구축한 3억 개 이상의 영상-텍스트 페어로 구성된 데이터셋 중 약 10% 규모인 3500만 개 분량을 이번 모델 개발을 위해 활용했다.
페가수스 모델은 개발자용 API 형태로 상용화돼 즉시 도입 가능하다. 나아가 최근 오픈AI가 발표한 GPT4-V에서 볼 수 있던 Text-To-Text 혹은 Image-To-Text를 넘어선 긴 영상 요약, 영상 내 주제별 챕터 및 하이라이트 기능, 질의응답 등 Video-To-Text를 가능하게 한다.
트웰브랩스 관계자는 더테크에 “예를 들어 방송에서 영상 제작을 할 때 촬영 필름이 10시간이 넘을 수 있다”며 “기존에는 모두 확인을 했어야 하지만 페가수스를 통해 주요 장면을 검색하면서 시간을 단축시킬 수 있다”고 전했다.
이번 페가수스 공개로 트웰브랩스는 영상 콘텐츠의 이해, 활용에 있어 새로운 장이 열릴 것으로 기대하고 있다.