[더테크=전수연 기자] 국내 연구진이 오픈AI의 GPT-4V와 구글의 제미나이 프로 수준의 멀티모달 LLM을 개발했다. KAIST는 전기및전자공학부 노용만 교수 연구팀이 기업에서 비공개하고 있는 상업 모델인 LLM의 시각 성능을 뛰어넘는 공개형 멀티모달 LLM을 출시했다고 20일 밝혔다. KAIST는 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 멀티모달 LLM이 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준의 모델이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다고 분석했다. 이에 노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 LLM의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다. 연구팀이 개발한 첫 번째 기술 콜라보는 현존하는 공개형 멀티모달 LLM이 비공개형 모델의 성능에 비해 현저하게 낮은 이유와 일차적으로 물체 수준에 대한 이미지 이해 능력이 떨어진다는 점을 우선 검증했다. 해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상하기 위해 연구팀은
[더테크=이지영 기자] 삼성전자가 인공지능(AI) 분야 기술과 제품경쟁력을 확보하고 미래 인재 양성을 위해 서울대에 ‘AI 공동연구센터’를 짓고 산학협력을 진행한다. 삼성전자와 서울대학교는 17일 서울 관악구의 서울대 글로벌공학교육센터에서 ‘AI 공동연구센터’를 위한 업무협약을 체결했다. 이날 협약식에는 두 기관의 주요 인사들이 참석했다. 이번 협약을 통해 설립될 AI 공동연구센터에서는 향후 3년간 AI 최신 기술 분야에 대한 산학협력 연구과제를 수행할 예정이다. 삼성전자는 DX 부문이, 서울대는 공과대학 대학원 협동과정 인공지능 전공이 참여한다. 연구과제는 △온디바이스(On-Device) AI △멀티모달(Multi-Modal) AI 등을 위한 세부 기술 확보다. 삼성전자는 올해 초 출시된 갤럭시 S24 시리즈에 다양한 AI 기술을 탑재했으며 비스포크 AI, AI TV 등 AI 기술이 적용된 가전을 출시하며 제품 영역을 확대해가고 있다. 삼성전자는 빠르게 변화하는 AI 분야에서 산학협력을 통해 AI 핵심 기술을 확보하고 갱쟁력을 강화할 것으로 기대했다. 아울러 과제에 참여한 석·박사급 연구원을 대상으로 채용 연계 활동을 병행할 계획이다. 전경훈 삼성전자 DX
[더테크=전수연 기자] 구글(Google)이 연례 개발자 행사 ‘구글 I/O 2024’를 개최하고 AI 챗봇 제미나이(Germini) 신규 업데이트 사항, 생성형 AI 툴 등 다양한 기술 변화를 공유했다. 특히 개선된 ‘생성형 AI 검색’을 전면에 내세웠는데, 제미나이 모델이 적용되며 눈길을 끌었다. I/O를 통해 공개된 주요 내용 중 경량 개방형 모델 ‘제미나이 1.5 프로’는 번역, 코딩, 추론 등과 같은 주요 사용 사례 전반에 걸쳐 품질 개선이 이뤄졌다. 제미나이 1.5 플래시의 경우에는 모델의 응답 시간 속도가 중요한 작업에 최적화된 모델로 빠르고 빈도가 잦은 작업에 활용될 수 있다. 구글은 제미나이 API·AI 스튜디오에 오디오 인식 기능을 추가해 제미나이 1.5 프로가 AI 스튜디오에 업로드된 동영상의 이미지, 오디오를 추론하도록 개발했다. 또한 픽셀 디바이스를 시작으로 멀티모달 제미나이 나노를 사용하는 앱들은 텍스트를 넘어 시각, 청각, 음성, 언어 등 다양한 정보를 맥락에 맞게 이해할 수 있다. 제미나이 나노의 멀티모달 기능은 시각 장애인, 저시력 이용자에게 이미지에 대한 명확한 설명을 제공할 수 있다. 또한 온라인 쇼핑 중 발견한 옷의 스타일
주간 'Tech Point’는 금주의 소식을 톺아보고 정리한 뉴스 큐레이션 콘텐츠입니다. 한 주를 돌아보며 독자 여러분께 한 번 더 알려드리고 싶은 소식과 그 외 이슈들을 함께 모아봤습니다. [더테크=전수연 기자] 5월 3주차 ‘주간 Tech Point’는 오픈AI의 신규 AI 모델 소식부터 살펴보겠습니다. 오픈AI는 13일(현지시간) 온라인으로 ‘스프링 업데이트’ 행사를 진행하고 최신 AI 모델 ‘GPT-4o’를 공개했습니다. GPT-4o의 o는 모든 것을 뜻하는 라틴어 접두사 Omni(옴니)를 의미합니다. GPT-4o는 텍스트 기반의 대화 방식에서 한 단계 진화해 사용자와 실시간으로 대화할 수 있으며 텍스트, 시각, 청각 데이터를 종합해 분석하고 처리할 수 있습니다. 또한 일반 텍스트로 파악하기 힘든 사용자의 말투, 억양을 인지하거나 수학 문제를 보고 풀이하는 등의 기능도 탑재했습니다. 이날 시연에서는 스마트폰으로 “발표에 앞서 긴장되는데 어떻게 해야 할까”라는 질문에 “깊이 심호흡을 하면 도움이 될 것”이라고 답했습니다. 또 개발자가 숨을 몰아쉬자 GPT-4o는 “그런 방식으로 숨을 쉬는 것은 도움이 되지 않는다”며 추가 답변을 제시했습니다. GP
[더테크=조재호 기자] “이제 구글은 본격적인 제미나이의 시대를 맞이했습니다” 순다르 피차이 구글 CEO는 이번 I/O에서 한층 더 강화된 인공지능(AI)을 소개했다. 이번에 공개된 제미나이 1.5 프로는 경쟁사인 오픈AI가 공개한 GPT-4o처럼 멀티모달(Multi Modal) 기능을 지원한다. 한 차원 더 높은 단계의 AI 경쟁을 예고한 것이다. 구글은 14일(현지시각) 미국 캘리포니아주 마운틴뷰에서 연례 개발자 회의인 ‘구글 I/O 2024’를 개최하고 자사의 생성형 AI인 제미나이를 중심으로 새로운 기술들을 선보였다. 피차이 CEO는 “제미나이 생태계에 상상할 수 있는 AI의 모든 것을 담았다”고 말했다. 지난해 공개된 제미나이는 업데이트를 거쳐 최신 모델인 제미나이 1.5 프로까지 발전했다. 제미나이 어드밴스드를 통해 이용자들에게 제공되는데 현재 파운데이션모델 중 가장 많은 100만 토큰을 지원하고 개발자들은 200만개까지 토큰을 활용할 수 있다. 제미나이를 통해 가장 큰 변화를 보일 부분은 검색 분야이다. ‘AI 개요’를 통해 검색 결과를 요약하고 관련 링크를 제공한다. 대화형, 사진을 포함한 이미지, 동영상으로도 검색을 진행할 수 있다. 이 기능
[더테크=조재호 기자] 생성형 인공지능(AI)의 선두주자 오픈AI가 신규 AI 모델을 선보였다. 사람처럼 보고 듣고 말하며 실시간 대화까지 할 수 있을 정도로 빠른 답변을 제공한다. 이번 신규 모델 공개는 경쟁사인 구글의 I/O를 하루 앞두고 진행됐는데, 멀티모달(Multi Modal)을 본격적으로 지원하는 모델이라는 점에서 큰 이슈가 될 전망이다. 오픈AI가 현지시각 13일 ‘스프링 업데이트’ 행사를 진행했다. 온라인으로 진행된 이번 행사에서는 최신 AI 모델 ‘GPT-4o’를 공개하고 시연했다. 챗GPT에 더 많은 도구와 언어를 지원한다, GPT-4o의 o는 모든 것을 뜻하는 라틴어 접두사 Omni(옴니)를 의미한다. 텍스트 기반의 대화 방식에서 한단계 더 진화했다는 의미다. GPT-4o는 사용자와 실시간으로 대화할 수 있으며 텍스트와 시각, 청각 데이터를 종합해 분석하고 처리할 수 있는 모델이다. 일반적인 텍스트로 파악하기 힘든 사용자의 말투나 억양을 파악한다거나 수학 문제를 보고 풀이하는 등의 기능을 선보였다. 오픈AI는 GPT-4o가 기존 GPT-4 Turbo 보다 빠른 답변 속도를 지녔으며 비용은 절반 수준이라고 설명했다. 지난해 11월 GPT-4
[더테크=이지영 기자] 네이버의 패션 특화 AI 스타트업의 신규 투자를 집행했다. 회사는 시장성 검증 이전의 극초기 스타트업에도 기술의 가치에 주목해 적극적인 투자를 집행해 성장을 지원하고 있다. 네이버 D2SF(D2 Startup Factory)가 패션에 특화된 경량 이미지 생성 AI 모델을 개발한 NXN Labs에 신규 투자를 진행했다고 8일 밝혔다. NXN Labs는 법인 설립 후 2개월 만에 투자 유치에 성공했는데 네이버 D2SF는 기술 가치와 잠재력에 주목해 투자를 결정했다. 이번 투자는 KB 인베스트먼트와 스마일게이트 인베스트먼트가 공동으로 참여했다. NXN Labs는 이커머스에 특화된 △가상 피팅 △가상 모델 제작 등에 활용할 수 있는 이미지 생성 AI 모델을 개발 중이다. 패션 업계를 대상으로 브랜드의 디자인적 특성을 보존하면서 고퀄리티 이미지를 생성하는 솔루션을 준비하고 있다. 회사의 솔루션은 기존 패션 브랜드가 룩북 및 광고 이미지 제작에 들던 시간과 비용을 효율화할 것으로 기대한다. 현재 NXN Labs는 자체 개발한 모델을 활용해 패션 브랜드와 국내 이커머스 플랫폼 등과 기술 검증을 진행 중이며 사용성을 점검하고 있다. 생성된 이미지 퀄
[더테크=조재호 기자] 메타(Meta)가 인간의 시각인식을 모방한 방식으로 훈련하는 인공지능(AI) 모델 I-JEPA의 후속작을 출시했다. 메타는 지난해 공개한 ‘이미지 공동 임베딩 예측 아키텍처(I-JEPA)’라는 이름의 이미지 데이터 학습 AI 모델의 최신 버전인 ‘V-JEPA’를 15일(현지시각) 공개했다. 아울러 해당 모델을 연구하고 확장할 수 있도록 CC BY-NC(저작자표시-비영리) 라이선스로 공개했다고 15일(현지시각) 밝혔다. V-JEPA(Video Joint Embedding Predictive Architecture)는 기존 버전에서 이미지로 데이터를 학습하는 방식에서 V로 바뀐 비디오 영상물을 학습하는 모델이다. 얀 르쿤(Yann LeCun) 메타 VP 겸 최고 AI 과학자는 “우리의 목표는 인간처럼 더 많은 것을 배울 수 있는 일반 인공지능을 구축하는 것”이라며 “복잡한 작업이 필요한 서비스에서 효율적으로 학습하고 계획을 세울 수 있도록 세상이 돌아가는 방식을 파악해 낯선 환경에서도 쉽게 적응할 수 있는 모델을 형성하는 것”이라고 밝혔다. V-JEPA는 영상에서 누락되거나 가려진 부분을 예측하는 방식으로 학습한다. 기존 이미지 인식 모델
[더테크=조재호 기자] 마이크로소프트가 14일 올해 주목해야 할 주요 인공지능(AI) 트렌드를 공개했다. 마이크로소프트(이하 MS)는 2024년에도 AI가 사람들의 일상과 업무 방식을 크게 변화시킬 것으로 예상했다. 아울러 AI 기술 통합과 발전으로 문제 해결을 돕는 기술에 쉽게 접근할 수 있으며 삶을 더 풍요롭게 만들어 줄 것으로 기대했다. MS가 선정한 AI 트렌드는 △소형언어모델 △멀티모달 △과학분야 AI 등 총 3가지다. 소형언어모델(SLMs)은 AI 분야에서 더욱 중요한 역할을 할 것으로 예상했다. 방대한 양의 데이터로 학습된 대형언어모델(LLMs)의 경우 파라미터가 수천억개 이상이기 때문에 저장 공간이 많이 필요하고 자원 소모도 크다. 파라미터는 언어 모델이 문장을 생성하거나 해석할 때 사용되는 변수를 말한다. 반면 소형언어모델은 수십억 개의 파라미터로 구성돼 학습에 필요한 시간과 자원을 덜 소모한다. 모바일 기기에서도 실행할 수 있고 인터넷이 지원되지 않는 오프라인 상태에서도 사용할 수 있다는 것도 장점으로 꼽힌다. 선별된 고품질의 학습 데이터를 사용해 보다 정확한 결과를 얻을 수 있다. 이와관련 MS 연구진은 특정 야에서 대형언어모델과 동등하거
[더테크=조재호 기자] 국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장을 입력하면 2초만에 이미지를 만드는 기술을 공개했다. 초고속 생성형 시각지능 연구에 탄력이 붙을 전망이다. 한국전자통신연구원(ETRI)은 이미지 생성 속도가 기존 대비 5배 빠른 AI ‘코알라(KOALA)’ 3종 모델과 이미지나 영상 등으로 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등을 일반에 공개한다고 26일 밝혔다. 우선 코알라 모델은 2.56B(25억) 파라미터를 지식 증류 기법을 적용해 700M(7억)으로 줄였다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가하기 때문이다. 연구진은 모델 크기를 1/3로 축소하고 고해상도 이미지 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선했다. 이미지 생성 속도를 2초 내외로 만들어 국내외 경쟁 속에서 8GB 정도의 그래픽처리장치(GPU)에서도 구동할 수 있도록 만들었다. ETRI는 자체 개발한 파라미터별 ‘코알라’ 3종 모델을 허깅페이스에 공개했으며, 기존 공개 소프트웨어인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼
[더테크=조재호 기자] 카카오브레인이 멀티모달 언어모델 오픈소스 ‘허니비(Honeybee)’를 깃허브에 공개했다. 카카오브레인은 19일 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하고자 높은 수준의 멀티모달 언어모델(Multimodal Large Language Model, MLLM) 오픈소스 ‘허니비’를 공개했다. 현재 멀티모달 언어모델 연구는 공개된 모델의 수가 적고 학습 방법이 자세히 공개되지 않아 개발이 어려운 상황이다. 이에 카카오브레인은 멀티모달 언어모델의 발전에 기여하고자 자체 개발한 ‘허니비’의 소스코드를 공개하기로 결정했다. 김일두 카카오브레인 각자 대표는 “허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했으며 이를 활용한 서비스 확장을 고려중”이라며 “더욱 발전된 AI 모델 확보를 위해 끊임없이 연구개발을 진행할 것”이라고 전했다. MLLM은 이미지와 명령어를 입력하면 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델의 확장된 형태라고 할 수 있다. 이미지와 텍스트를 모두 입력할 수 있어 이미지가 담긴 장면을 묘사하거나 이미와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력을 지녔
[더테크=전수연 기자] LG전자가 로봇과 AI 기술 기반의 스마트홈 허브를 선보인다. 스마트홈 AI는 사용자의 요구뿐만 아니라 다양한 이상상황을 감지하는 등의 역할을 수행할 것으로 보인다. LG전자는 CES 2024에서 생활가전 사업의 목표인 ‘가사 해방을 통한 삶의 가치 제고(Zero Labor Home, Makes Quality Time)’ 실현을 가속할 스마트홈 AI 에이전트를 첫 공개한다고 27일 밝혔다. 스마트홈 AI 에이전트는 스마트홈 허브를 포함해 생활 전반에 도움을 주는 만능 가사생활도우미 역할을 수행함으로써 스마트홈의 가치를 높이는 역할이다. 스마트홈 AI는 고도화된 로봇과 AI 기술이 적용돼 두 다리에 달린 바퀴와 자율 주행 기술을 통해 집안을 자유롭게 이동한다. 음성·음향·이미지 인식 등을 접목한 멀티모달(Multi Modal) 센싱과 첨단 AI 프로세스를 토대로 사용자의 상황과 상태를 인지하고 능동적으로 소통한다. 이와 함께 스마트홈 AI는 관절이 달린 두 다리를 통해 카펫이나 바닥의 장애물을 자연스럽게 넘는 움직임, 디스플레이에 표출되는 표정 등을 살린 감정표현도 가능하다. 또한 미래형 스마트홈 허브로서 가전, IoT 기기를 연결하고