[더테크 서명수 기자] 마이크로소프트가 대규모 AI 추론 비용과 성능 효율을 동시에 끌어올리기 위해 자체 설계한 AI 추론 가속기 ‘마이아 200(Maia 200)’을 27일 공개했다. 마이아 200은 마이크로소프트 애저 환경에서 거대 언어모델(LLM)을 보다 빠르고 경제적으로 구동하기 위한 차세대 AI 인프라의 핵심 칩이다.
마이아 200은 TSMC의 3나노미터 공정을 기반으로 제작됐으며, 216GB HBM3e 메모리와 초당 7TB 대역폭을 제공한다. 네이티브 FP8·FP4 텐서 코어와 데이터 이동 엔진을 결합해 대규모 토큰 생성에 최적화된 추론 성능을 구현한 것이 특징이다. 실제 성능에서도 FP4 기준으로 3세대 아마존 트레이니움 대비 3배 높은 처리량을 기록했고, FP8 환경에서는 구글 7세대 TPU를 상회했다. 이를 통해 마이크로소프트는 자사 최신 하드웨어 대비 달러당 성능을 약 30% 개선했다.
마이아 200은 오픈AI의 최신 GPT-5.2를 포함한 다양한 모델을 지원하며, 마이크로소프트 파운드리와 마이크로소프트 365 코파일럿의 추론 효율을 강화한다. 또한 슈퍼인텔리전스 팀의 합성 데이터 생성과 강화학습에도 활용돼 차세대 사내 모델 고도화를 가속할 예정이다.
칩은 1,400억 개 이상의 트랜지스터를 집적해 FP4 기준 10PFLOPS, FP8 기준 5PFLOPS 이상의 성능을 제공한다. 표준 이더넷 기반 2계층 스케일업 네트워크를 적용해 독점 패브릭 없이도 최대 6,144개 가속기를 연결할 수 있으며, 전력 효율과 총소유비용(TCO) 절감 효과를 동시에 확보했다.
마이아 200은 미국 아이오와주 US Central 데이터센터를 시작으로 순차 배포되며, 향후 US West 지역으로 확대될 예정이다. 마이크로소프트는 다세대 마이아 로드맵을 통해 AI 인프라 혁신을 지속하겠다는 전략이다. 한편 개발자와 연구자를 위한 마이아 200 SDK 프리뷰도 함께 공개돼, 모델 최적화와 비용 효율 분석을 지원한다





