[더테크 이지영 기자] 국내 연구진이 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 최적의 병렬화 구성을 도출하도록 돕는 기술을 개발했다. 최근 챗GPT, 딥시크 등 초거대 인공지능 모델이 다양한 분야에서 활용되며 주목받고 있다. 대형 언어 모델은 수만 개의 데이터센터용 GPU를 갖춘 대규모 분산 시스템에서 학습되는데, GPT-4의 경우 모델을 학습하는 데 소모되는 비용은 약 1,400억 원에 육박하는 것으로 추산된다. KAIST는 전기및전자공학부 유민수 교수 연구팀은 삼성전자 삼성종합기술원과 공동연구를 통해, 대규모 분산 시스템에서 대형 언어 모델(LLM)의 학습 시간을 예측하고 최적화할 수 있는 시뮬레이션 프레임워크(이하 vTrain)를 개발했다고 13일 밝혔다. 대형 언어 모델 학습 효율을 높이려면 최적의 분산 학습 전략을 찾는 것이 필수적이다. 그러나 가능한 전략의 경우의 수가 방대할 뿐 아니라 실제 환경에서 각 전략의 성능을 테스트하는 데는 막대한 비용과 시간이 들어간다. 이에 따라 현재 대형 언어 모델을 학습하는 기업들은 일부 경험적으로 검증된 소수의 전략만을 사용하고 있다. 이는 GPU 활용의 비효율성과 불필요한 비용 증가를 초래하지만, 대
[더테크 이지영 기자] 롯데이노베이트는 AI 플랫폼 ‘아이멤버'가 추론 기능 ‘두뇌풀가동’과 신규 기능을 추가했다고 12일 밝혔다. 롯데 거대언어모델(LLM) 서비스 ‘아이멤버 챗’에 탑재된 ‘두뇌풀가동’은 사용자의 질문에 대한 답변을 문제 해결 과정 단계별로 독백 형식으로 제시하면서, 기존 AI 시스템에서 발생할 수 있는 ‘환각 현상’을 크게 줄일 수 있다. ‘두뇌풀가동’은 특정 분야에 대해 전문적이고 깊이 있는 정보를 파악하거나 논리적으로 문제를 풀어야 하는 상황에 대한 답변을 얻을 수 있다. 이 기능은 질문에 대한 맥락과 사항을 분석하여 답변을 도출하는 과정과 설명, 근거, 부가적인 아이디어까지도 제시하는 등 추론 과정을 보여줌으로써 사용자의 이해를 돕는다. ‘아이멤버 챗’은 기업 고객을 위해 ‘아이멤버 플랫폼’에서 제공하고 있는 롯데이노베이트의 자체 구현한 AI 모델이다. 웹 검색, 파일, URL 기반 답변 △DART 전자공시시스템 정보 검색, OCR(Optical Character Recognition), 음성 인식, 이미지 생성 등 다양한 멀티모달 기능을 지원하여 기업 맞춤형 솔루션을 제공한다. 롯데이노베이트는 ‘아이멤버 챗’의 추론 기능 외 AI
[더테크=전수연 기자] 마이크로소프트(Microsoft, 이하 MS)가 구글, 오픈AI와의 경쟁에 대비한 신규 자체 AI 모델을 개발한다. 로이터 통신에 따르면 6일(현지시간) MS는 내부에서 ‘MAI-1’으로 불리는 신규 모델을 훈련 중인 것으로 나타났다. 이 모델은 최근 고용된 구글 딥마인드 공동 창업자이자 AI 스타트업 인플렉션(Inflection)의 전 CEO인 무스타파 술레이만(Mustafa Suleyman)이 총괄하고 있다. 현재 훈련 중인 AI 모델의 명칭은 아직 확정되지 않았지만 MS가 지난달 출시했던 '파이(Phi)-3 미니(mini)'보다 131배 많은 약 5000억 개의 파라미터를 갖고 있다고 보도됐다. 또한 미국 IT 매체 디인포메이션은 해당 AI 모델의 목적은 결정되지 않았으며 MS가 훈련시킨 어떤 소규모 오픈소스 모델보다도 클 것이라고 전했다. MS는 이번 달 말 빌드 개발자 컨퍼런스에서 새로운 AI 모델을 우선 공개할 계획이다. 한편 MS는 지난 3월 새로 설립된 소비자 AI 부서의 책임자로 술래이만(Suleyman)을 임명하고 스타트업 인플렉션의 직원을 채용한 바 있다.
[더테크=조재호 기자] 메타(Meta)가 인간의 시각인식을 모방한 방식으로 훈련하는 인공지능(AI) 모델 I-JEPA의 후속작을 출시했다. 메타는 지난해 공개한 ‘이미지 공동 임베딩 예측 아키텍처(I-JEPA)’라는 이름의 이미지 데이터 학습 AI 모델의 최신 버전인 ‘V-JEPA’를 15일(현지시각) 공개했다. 아울러 해당 모델을 연구하고 확장할 수 있도록 CC BY-NC(저작자표시-비영리) 라이선스로 공개했다고 15일(현지시각) 밝혔다. V-JEPA(Video Joint Embedding Predictive Architecture)는 기존 버전에서 이미지로 데이터를 학습하는 방식에서 V로 바뀐 비디오 영상물을 학습하는 모델이다. 얀 르쿤(Yann LeCun) 메타 VP 겸 최고 AI 과학자는 “우리의 목표는 인간처럼 더 많은 것을 배울 수 있는 일반 인공지능을 구축하는 것”이라며 “복잡한 작업이 필요한 서비스에서 효율적으로 학습하고 계획을 세울 수 있도록 세상이 돌아가는 방식을 파악해 낯선 환경에서도 쉽게 적응할 수 있는 모델을 형성하는 것”이라고 밝혔다. V-JEPA는 영상에서 누락되거나 가려진 부분을 예측하는 방식으로 학습한다. 기존 이미지 인식 모델
[더테크=조재호 기자] 카이스트가 분포가 변화하는 데이터에 대해서도 편향되지 않는 판단을 내리도록 돕는 인공지능(AI) 학습 기법을 개발했다. AI 모델의 공정성을 높여 신뢰감을 형성하는데 도움을 줄 것으로 보인다. 아울러 이번 기법은 데이터 전처리만으로 가능해 기존 공정성 기법과 함께 활용할 수 있다는 이점이 있다. 카이스트는 황의종 전자및전기공학부 교수 연구팀이 학습 상황과 달라진 새로운 분포의 테스트 데이터에 대해 편향되지 않는 판단을 내리도록 돕는 새로운 AI 모델 훈련 기술을 개발했다고 30일 밝혔다. 데이터 편향성이란 데이터가 특정 그룹에 대해 편향되는 현상을 말한다. 최근 AI의 공정성을 높이기 위한 다양한 학습 방법론이 제시되고 있다. 대부분의 연구는 AI 모델의 훈련용 데이터와 테스트 데이터가 같은 분포를 갖는다고 가정한다. 하지만 실제 상황에서 이러한 가정은 대체로 성립되지 않고 학습 데이터와 테스트 데이터의 편향 패턴이 크게 변화할 수 있음이 관측되고 있다. 이는 학습된 데이터에서 설정한 편향성 패턴과 테스트 환경의 패턴이 다르면 사전 학습을 거친 AI 모델의 공정성의 영향을 미치고 다시 악화된 편향성을 가질 수 있다는 설명이다. AI 모