2025.04.04 (금)
T 뉴스
멀티미디어
독자 · 소통
[더테크 조재호 기자] 국내 연구진이 기존 트랜스포머 기반 모델 대비 4배의 빠른 속도를 달성한 동영상 인식기술을 개발했다. KAIST 김창익 교수 연구팀이 챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록 한 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다. 비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM) 메커니즘을 활용해 선형 복잡도로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다. 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 시공간적 전방 및 후방 선택적 상태 공간 모델을 도입했다.
더테크는 ‘스마트 테크 전문‘ 미디어입니다. AI, 사물인터넷, 미래모빌리티 등 인더스트리 4.0 시대를 이끌어갈 딥테크 분야를 중심으로 다양한 ICT 산업컨텐츠를 제공하고 있습니다. 뉴스레터 발송을 위한 최소한의 개인정보를 수집하고 있습니다. 수집된 정보는 발송 외 다른 목적으로 이용되지 않으며 서비스 종료가 되거나 구독을 해지할 경우 즉시 파기됩니다.