구글의 승부수는 ‘AI+플랫폼’, 멀티모달 AI 경쟁 본격화

[더테크=조재호 기자] “이제 구글은 본격적인 제미나이의 시대를 맞이했습니다” 순다르 피차이 구글 CEO는 이번 I/O에서 한층 더 강화된 인공지능(AI)을 소개했다. 이번에 공개된 제미나이 1.5 프로는 경쟁사인 오픈AI가 공개한 GPT-4o처럼 멀티모달(Multi Modal) 기능을 지원한다. 한 차원 더 높은 단계의 AI 경쟁을 예고한 것이다.

구글은 14일(현지시각) 미국 캘리포니아주 마운틴뷰에서 연례 개발자 회의인 ‘구글 I/O 2024’를 개최하고 자사의 생성형 AI인 제미나이를 중심으로 새로운 기술들을 선보였다. 피차이 CEO는 “제미나이 생태계에 상상할 수 있는 AI의 모든 것을 담았다”고 말했다.

지난해 공개된 제미나이는 업데이트를 거쳐 최신 모델인 제미나이 1.5 프로까지 발전했다. 제미나이 어드밴스드를 통해 이용자들에게 제공되는데 현재 파운데이션모델 중 가장 많은 100만 토큰을 지원하고 개발자들은 200만개까지 토큰을 활용할 수 있다.

제미나이를 통해 가장 큰 변화를 보일 부분은 검색 분야이다. ‘AI 개요’를 통해 검색 결과를 요약하고 관련 링크를 제공한다. 대화형, 사진을 포함한 이미지, 동영상으로도 검색을 진행할 수 있다. 이 기능은 미국을 시작으로 연말까지 점진적으로 확대될 예정이다.

구글 포토에게 물어보기(Ask Photos) 기능은 사람들이 생활 전반에서 사진을 활용해 검색하는 것을 좋아하는 것에서 착안한 기능이다. 현장에서는 딸의 어린 시절을 회상한다는 예시로 “언제 수영을 배웠지?”부터 “수영 실력이 어떻게 발전했는지”와 같은 복잡한 질문에도 답변을 제시할 수 있으며 텍스트와 날짜 등 다양한 맥락을 인식한다고 밝혔다. 이 기능은 올여름 출시를 예고했다.

구글 워크스페이스를 통한 AI 기능에 대해서는 메일과 독스, 드라이브, 슬라이드, 시트의 측면 패널을 통한 Q&A를 지원하며 이에밀 요약 및 상황별 스마트 답장 그리고 번역 등이 지원된다.

이번 행사에서 제미나이는 텍스트 위주의 소통을 넘어 멀티모달 모델 기능도 강조했는데 노트북LM(NotebookLM)의 오디오 개요(Audio Overview) 기능은 개인화된 대화형 오디오 대화를 생성하는 기능이다.

이와 관련 초기 단계이지만 이용자를 대신해 미리 생각하고, 추론하고, 계획하는 지능형 시스템인 AI 에이전트(AI Agent)와 관련된 내용도 있었는데 프로젝트 아스트라(Project Astra)는 멀티모달리티를 이해하고 실시간 대화 기능을 제공할 목표로 개발 중이다.

비디오 및 이미지 생성 분야에서는 비오(Veo)와 이마젠 3(Imagen 3)를 통한 기술 개발과 함께 차세대 오픈 모델인 젬마 2.0(Gemma 2.0)을 소개했다.

AI 인프라 부문에선 6세대 TPU인 트릴리움(Trillium)을 소개했는데 이전 세대인 TPU v5e에 비해 칩당 컴퓨팅 성능이 4.7배 향상된 칩으로 올해 연말부터 구글 클라우드 고객에게 제공될 예정이다.

구글은 이번 행사를 통해 기존까지 텍스트 위주의 AI 경험을 사람처럼 보고 듣고 말할 수 있는 멀티모달 AI로 한층 더 발전시킬 계획이며 기존 구글 플랫폼과의 융합을 통해 제미나이를 기반으로 한 생태계를 중심으로 혁신을 가속화할 계획이라고 밝혔다.

CATEGORY