트랜스포머의 지능과 맘바의 효율 더한 'AI 반도체' 두뇌 개발

 

[더테크 이지영 기자]  거대언어모델(LLM)의 연산 효율을 혁신적으로 높일 수 있는 새로운 AI 반도체 기술이 국내 연구진에 의해 개발됐다.

 

KAIST와 국제 공동연구팀이 트랜스포머와 맘바 구조를 결합한 하이브리드 AI 반도체 핵심 기술을 세계 최초로 메모리 내부에서 직접 연산이 가능한 형태로 구현하는 데 성공했다.

 

KAIST는 전산학부 박종세 교수 연구팀이 미국 조지아공과대학교, 스웨덴 웁살라대학교와 공동으로 차세대 인공지능 모델용 ‘AI 메모리 반도체(PIM)’ 기반 기술 ‘PIMBA’를 개발했다고 17일 밝혔다.

 

현재 ChatGPT, GPT-4, Claude, Gemini, Llama 등 대규모 언어모델은 문맥 내 모든 단어를 동시에 처리하는 트랜스포머 구조를 기반으로 작동한다. 하지만 모델이 커지고 문장이 길어질수록 연산량과 메모리 요구량이 폭증해 속도 저하와 에너지 소모가 병목 요인으로 작용해왔다.

 

이 한계를 보완하기 위해 최근에는 시간 순서에 따라 정보를 처리하는 순차형 기억 구조 ‘맘바’가 제시됐으나, 여전히 메모리 병목과 전력 효율 문제가 완전히 해결되지 못했다.

 

박종세 교수 연구팀은 트랜스포머의 병렬 처리 능력과 맘바의 순차적 효율성을 결합한 ‘트랜스포머–맘바 하이브리드 모델’을 기반으로, 연산을 메모리 내부에서 직접 수행하는 새로운 반도체 구조 PIMBA를 설계했다.

 

기존 GPU 기반 시스템은 데이터를 메모리 밖으로 이동시켜 연산을 수행하지만, PIMBA는 데이터를 이동시키지 않고 저장장치 내부에서 직접 계산을 처리한다. 이를 통해 데이터 이동 시간을 최소화하고, 연산 속도와 전력 효율을 동시에 개선했다.

 

실험 결과, PIMBA는 기존 GPU 시스템 대비 최대 4.1배 빠른 처리 성능을 보였으며, 전력 소비는 평균 2.2배 감소했다.

 

이번 연구는 오는 10월 20일 서울에서 열리는 세계적 컴퓨터 구조 학술대회 ‘제58회 국제 마이크로아키텍처 심포지엄(MICRO 2025)’에서 발표될 예정이며, 앞서 ‘제31회 삼성휴먼테크 논문대상’ 금상을 수상해 기술적 우수성을 인정받았다.

 

이번 연구는 정보통신기획평가원(IITP)의 인공지능반도체대학원 지원사업과 과학기술정보통신부–IITP ICT R&D 프로그램, 한국전자통신연구원(ETRI)의 지원으로 수행됐으며, 반도체설계교육센터(IDEC)의 EDA 툴을 활용했다.

 

이번 성과는 AI 반도체의 핵심 과제인 연산 속도–전력 효율–메모리 병목 문제를 동시에 해결한 첫 사례로 평가되며, 차세대 LLM 및 엣지 AI 반도체 기술 발전에 새로운 방향을 제시했다.
 



배너