구글 Gemini 보안 취약점 세계 최초 규명…MoE 기반 AI에 ‘악성 전문가’ 공격 가능성

상용 LLM도 위험

 

[더테크 이지영 기자]  구글 Gemini를 비롯한 다수의 상용 거대언어모델은 효율성과 성능을 높이기 위해 여러 개의 소형 AI 모델을 상황에 따라 선택적으로 활용하는 전문가 혼합(Mixture-of-Experts, MoE) 구조를 사용하고 있다. 하지만 이 구조가 새로운 형태의 보안 취약점으로 작용할 수 있다는 연구 결과가 나왔다.

 

KAIST는 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조를 악용해 거대언어모델의 안전성을 심각하게 훼손할 수 있는 공격 기법을 세계 최초로 규명했다고 26일 밝혔다. 해당 연구는 정보보안 분야 최고 권위 국제 학회인 ACSAC 2025에서 최우수논문상(Distinguished Paper Award)을 수상했다.

 

ACSAC는 매년 전 세계 보안 연구자들이 참여하는 대표적인 국제 학술대회로, 올해 전체 논문 중 단 2편만이 최우수논문으로 선정됐다. 국내 연구진이 인공지능 보안 분야에서 이 같은 성과를 거둔 것은 매우 이례적인 사례로 평가된다.

 

연구팀은 MoE 구조의 근본적인 보안 취약성을 체계적으로 분석했다. 특히 공격자가 상용 거대언어모델의 내부 구조를 직접 제어하지 않더라도, 악의적으로 조작된 ‘전문가 모델’ 하나만 오픈소스로 유통될 경우 이를 포함한 전체 AI 모델이 위험한 응답을 생성하도록 유도할 수 있음을 실험으로 입증했다.

 

정상적인 전문가 모델들 사이에 단 하나의 ‘악성 전문가’가 섞일 경우, 특정 조건에서 해당 전문가가 반복적으로 선택되며 전체 AI 시스템의 안전성이 급격히 붕괴될 수 있다는 설명이다. 더욱 심각한 점은 이러한 공격이 모델의 성능 저하 없이 이뤄져 사전 탐지가 매우 어렵다는 것이다.

 

실험 결과, 연구팀이 제안한 공격 기법은 유해 응답 발생률을 기존 0% 수준에서 최대 80%까지 끌어올릴 수 있었으며, 다수의 전문가 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 저하되는 것으로 나타났다.

 

이번 연구는 오픈소스 기반 거대언어모델 개발이 확산되는 글로벌 AI 환경에서 새로운 보안 위협을 최초로 제시했다는 점에서 의미가 크다. 동시에 향후 AI 개발 과정에서 성능 최적화뿐 아니라 전문가 모델의 출처 검증과 보안성 확보가 필수 과제로 떠오를 전망이다.

 

신승원·손수엘 교수는 “효율성을 이유로 빠르게 확산되고 있는 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 실증적으로 확인했다”며 “이번 수상은 인공지능 보안의 중요성이 국제적으로 인정받았다는 점에서 의미가 크다”고 밝혔다.

 

한편 이번 연구에는 KAIST 전기및전자공학부 김재한·송민규 박사과정, 나승호 박사(현 삼성전자) 등이 참여했으며, 연구 결과는 2025년 12월 12일 미국 하와이에서 열린 ACSAC에서 공식 발표됐다.

 



배너