[더테크 이지영 기자] 고가의 데이터센터 GPU에 의존해온 대규모 언어모델(LLM) 서비스 구조에 변화의 조짐이 나타났다. KAIST 연구진이 주변에 널리 보급된 소비자급 GPU를 활용해 AI 서비스 비용을 대폭 낮출 수 있는 분산형 LLM 인프라 기술을 개발했다.
KAIST는 전기및전자공학부 한동수 교수 연구팀이 데이터센터 외부의 저렴한 소비자급 GPU를 활용해 LLM 추론 비용을 크게 낮출 수 있는 기술 ‘스펙엣지(SpecEdge)’를 개발했다고 29일 밝혔다.
현재 대부분의 LLM 기반 AI 서비스는 고성능 데이터센터 GPU에 의존하고 있다. 이로 인해 인프라 구축과 운영 비용이 높고, AI 기술 활용의 진입장벽도 높은 것이 현실이다. SpecEdge는 이러한 구조적 한계를 해결하기 위해 데이터센터 GPU와 개인 PC, 소형 서버 등에 탑재된 ‘엣지 GPU’가 역할을 분담해 LLM 추론을 수행하는 방식을 제안한다.
연구팀에 따르면 SpecEdge를 적용할 경우 기존 데이터센터 GPU만 활용한 방식 대비 토큰당 비용을 약 67.6% 절감할 수 있었다. 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상된 것으로 나타났다.
이 기술의 핵심은 ‘추측적 디코딩(Speculative Decoding)’ 기법이다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하면, 데이터센터의 대규모 언어모델이 이를 일괄 검증하는 구조다. 엣지 GPU는 서버의 응답을 기다리지 않고 지속적으로 토큰을 생성해 추론 속도와 인프라 활용 효율을 동시에 높였다.
특히 SpecEdge는 일반적인 인터넷 환경에서도 안정적으로 작동해, 별도의 고성능 네트워크 인프라 없이도 실제 서비스 적용이 가능하다는 점에서 실용성이 높다는 평가다. 서버는 여러 엣지 GPU에서 들어오는 검증 요청을 효율적으로 처리하도록 설계돼 GPU 유휴 시간을 최소화하고 데이터센터 자원 활용도를 극대화했다.
이번 연구는 데이터센터에 집중돼 있던 LLM 연산을 엣지로 분산시켜 AI 서비스 비용을 낮추고 접근성을 높일 수 있는 새로운 가능성을 제시했다. 향후 스마트폰, 개인용 컴퓨터, NPU 등 다양한 엣지 디바이스로 확장될 경우 고품질 AI 서비스를 보다 많은 사용자에게 제공할 수 있을 것으로 기대된다.
연구를 이끈 한동수 교수는 “데이터센터를 넘어 사용자 주변의 엣지 자원까지 LLM 인프라로 활용하는 것이 목표”라며 “AI 서비스 제공 비용을 낮추고 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다”고 밝혔다.
이번 연구에는 KAIST 박진우 박사와 조승근 석사과정이 참여했으며, 연구 성과는 미국 샌디에이고에서 열린 세계 최고 권위 AI 학회 ‘뉴립스(NeurIPS)’에서 스포트라이트 논문으로 발표됐다.















