[더테크=전수연 기자] 학습된 데이터를 통해, 처음 본 이미지의 특징을 인간처럼 설명하는 AI가 공개됐다.
LG AI연구원은 18일(현지시간) 캐나다 밴쿠버에서 진행 중인 컴퓨터 비전 학회 ‘CVPR(Computer Vision and Pattern Recognition, 컴퓨터 비전 및 패턴 인식) 2023’에서 ‘캡셔닝 AI(Captioning AI)’를 처음 선보였다.
이와 관련 LG 관계자는 <더테크>에 “캡셔닝은 AI가 이미지를 얼마나 정확하게 잘 읽어내는지에 관련된 기술”이라며, “이미지와 텍스트를 양방향으로 생성할 수 있는 멀티모달 초거대 AI를 2021년 말 공개한 이후 꾸준히 개발해 관련 기술을 고도화했다”고 설명했다.
생성형 AI 상용화 서비스 ‘캡셔닝 AI’는 처음 보는 이미지까지 자연어로 설명할 수 있는 AI로, 이미지 검색에 활용되는 문장이나 키워드 등 메타 데이터를 생성한다. 또 캡셔닝 AI는 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’ 기술이 적용됐다.
제로샷 이미지 캡셔닝은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경·인물·행동 등 이미지상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 하는 기술이다.
캡셔닝 AI는 평균적으로 5개 문장과 10개 키워드를 10초 이내에 생성하며, 이미지 범위를 1만 장으로 확장하면 2일 이내에 작업을 끝낼 수 있다. 이는 대량의 이미지를 관리해야 하는 기업들이 업무 효율성과 생산성을 높일 수 있다.
상용화 시기와 관련해 회사 관계자는 “캡셔닝 AI 서비스는 글로벌 고객사 10곳 대상 얼리 엑세스 프로그램으로 지난달부터 시작했다”고 말했다.
LG AI연구원은 셔터스톡(Shutterstock)과의 협업으로 이를 개발했다. 셔터스톡은 이미지와 영상 등 시각 콘텐츠가 매일 수십만 개 이상 추가되는 세계 최대 플랫폼 기업으로, 콘텐츠 분석과 처리 경험이 풍부한 전문가들이 포진해 있다.
또 LG AI연구원과 셔터스톡은 AI 모델 개발을 위해 학습 데이터의 편향성·선정성 등 AI 윤리 검증을 진행하고 저작권 투명성도 확보했다.
LG AI연구원은 이날 제로샷 이미지 캡셔닝을 주제로 서울대 AI대학원, 셔터스톡과 워크숍을 진행했다. 워크숍에 참여한 이미지 캡셔닝 분야의 전문가들은 최신 연구 동향과 미래 전망, AI 윤리 등 기술이 사회에 미치는 영향에 관한 심도 있는 논의를 진행했다.
아울러 LG AI연구원은 22일까지 진행하는 학회 기간 중 LG 부스 방문 연구자 대상 시연과 LG 주요 계열사와 함께 글로벌 AI 우수 인재 확보를 위해 네트워킹 행사를 진행한다.