[더테크=조재호 기자] 국내 연구진이 차세대 인터페이스 기술이 활성화된 고용량·고성능 AI 가속기를 개발했다. 대규모 AI 시스템 구축 비용을 감소시킬 수 있을 것으로 예상된다.
카이스트는 8일 정명수 전기및전자공학부 교수 연구팀이 차세대 인터페이스 기술인 CXL(Compute Express Link)이 활성화된 고용량 GPU의 메모리 읽기·쓰기 성능을 최적화하는 기술을 개발했다고 밝혔다.
일반적으로 AI 개발에 활용되는 GPU의 메모리 용량은 수십 기가바이트(GB)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것은 불가능하다. 대규모 AI 모델에 필요한 메모리를 확보하기 위해서 GPU 여러 대를 연결하는 방법을 선택하는데 이 방법은 GPU 가격으로 인해 총소유비용(TCO·Total Cost of Ownership)을 과하게 높아진다.
이에 차세대 연결 기술인 CXL을 활용해 대용량 메모리를 GPU에 직접 연결하는 CXL-GPU 구조가 다양한 산업계에서 검토되고 있다. 다만 고용량이라는 특징만으로 AI 서비스에 활용되기 어렵다. 대규모 AI 서비스는 용량만큼이나 GPU에 직접 연결된 메모리 준하는 성능이 나올 때 실제 서비스에 활용될 수 있다.
연구진은 CXL-CPU 장치의 메모리 성능이 저하되는 원인을 분석해 이를 개선하는 기술을 개발했다. 메모리 확장 장치가 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발해 GPU가 메모리 확장 장치에 쓰기를 요청하면서 동시에 로컬 메모리에도 쓰기를 수행하도록 설계했다. 메모리 확장 장치가 내부 작업의 수행 상태에 따라 작업하도록 해 쓰기 성능 저하 문제를 해결했다.
아울러 연구진은 메모리 확장 장치가 사전에 읽기 작업을 진행할 수 있도록 GPU에 미리 힌트를 주는 기술을 개발했다. 이 기술을 활용하면 메모리 확장 장치가 더 빠르게 읽기를 시작해 GPU가 실제 데이터를 필요할 때 캐시에서 데이터를 읽어 더욱 빠른 읽기 성능을 달성할 수 있다.
이번 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다. 연구팀은 파네시아의 CXL-GPU 프로토타입을 활용한 기술 실효성 검증을 통해 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다.
이번 연구는 오는 7월 산타클라라 USENIX 연합 학회와 핫스토리지의 연구 발표장에서 결과를 선보인다.
정명수 카이스트 전기및전자공학부 교수는 “CXL-GPU의 시장 개화 시기를 가속해 대규모 AI 서비스를 운영하는 빅테크 기업의 메모리 확장 비용을 획기적으로 낮추는 데 기여할 수 있을 것”이라 말했다.