처음 본 이미지도 설명하는 '캡셔닝 AI' 공개

[더테크=전수연 기자] 학습된 데이터를 통해, 처음 본 이미지의 특징을 인간처럼 설명하는 AI가 공개됐다.

LG AI연구원은 18일(현지시간) 캐나다 밴쿠버에서 진행 중인 컴퓨터 비전 학회 ‘CVPR(Computer Vision and Pattern Recognition, 컴퓨터 비전 및 패턴 인식) 2023’에서 ‘캡셔닝 AI(Captioning AI)’를 처음 선보였다.

이와 관련 LG 관계자는 <더테크>에 “캡셔닝은 AI가 이미지를 얼마나 정확하게 잘 읽어내는지에 관련된 기술”이라며, “이미지와 텍스트를 양방향으로 생성할 수 있는 멀티모달 초거대 AI를 2021년 말 공개한 이후 꾸준히 개발해 관련 기술을 고도화했다”고 설명했다.

생성형 AI 상용화 서비스 ‘캡셔닝 AI’는 처음 보는 이미지까지 자연어로 설명할 수 있는 AI로, 이미지 검색에 활용되는 문장이나 키워드 등 메타 데이터를 생성한다. 또 캡셔닝 AI는 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’ 기술이 적용됐다.

제로샷 이미지 캡셔닝은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경·인물·행동 등 이미지상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 하는 기술이다.

캡셔닝 AI는 평균적으로 5개 문장과 10개 키워드를 10초 이내에 생성하며, 이미지 범위를 1만 장으로 확장하면 2일 이내에 작업을 끝낼 수 있다. 이는 대량의 이미지를 관리해야 하는 기업들이 업무 효율성과 생산성을 높일 수 있다.

상용화 시기와 관련해 회사 관계자는 “캡셔닝 AI 서비스는 글로벌 고객사 10곳 대상 얼리 엑세스 프로그램으로 지난달부터 시작했다”고 말했다.

LG AI연구원은 셔터스톡(Shutterstock)과의 협업으로 이를 개발했다. 셔터스톡은 이미지와 영상 등 시각 콘텐츠가 매일 수십만 개 이상 추가되는 세계 최대 플랫폼 기업으로, 콘텐츠 분석과 처리 경험이 풍부한 전문가들이 포진해 있다.

LG AI연구원은 이날 제로샷 이미지 캡셔닝을 주제로 서울대 AI대학원, 셔터스톡과 워크숍을 진행했다. 워크숍에 참여한 이미지 캡셔닝 분야의 전문가들은 최신 연구 동향과 미래 전망, AI 윤리 등 기술이 사회에 미치는 영향에 관한 심도 있는 논의를 진행했다.

아울러 LG AI연구원은 22일까지 진행하는 학회 기간 중 LG 부스 방문 연구자 대상 시연과 LG 주요 계열사와 함께 글로벌 AI 우수 인재 확보를 위해 네트워킹 행사를 진행한다.

Search