적은 데이터로도 의도 파악... ‘가정교사형 강화학습’ 개발

KAIST, 전기및전자공학부 김준모 교수 연구팀,

 

[더테크 이지영 기자]  아무리 많은 데이터를 학습해도 인공지능(AI)이 사람의 의도를 정확히 이해하지 못하는 이유는 무엇일까. 선호를 비교하는 기존 학습 방식은 데이터가 부족하거나 판단이 모호할 경우 오히려 AI를 혼란에 빠뜨리는 한계를 안고 있었다. KAIST 연구진이 AI에게 ‘가정교사’를 붙이는 방식으로, 적은 데이터에서도 사람의 선호를 안정적으로 학습시키는 새로운 강화학습 해법을 제시했다.

 

KAIST는 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영하면서 데이터 효율성과 학습 안정성을 크게 향상시킨 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.

 

기존 인공지능 선호 학습은 “A가 B보다 낫다”는 식의 단순 비교 데이터에 의존해 왔다. 이 방식은 대규모 데이터 수집이 필요할 뿐 아니라, 판단 기준이 애매한 상황에서는 AI의 학습 방향이 흔들리는 문제가 있었다.

 

연구팀은 이를 해결하기 위해 사람의 선호를 먼저 깊이 학습한 ‘교사 모델’이 핵심 정보만을 정제해 ‘학생 모델’에게 전달하는 방식을 도입했다. 복잡한 내용을 정리해 가르치는 가정교사와 같은 구조로, 연구팀은 이를 ‘선호 증류’라고 명명했다.

 

이번 기술의 차별점은 단순히 ‘좋다’ 또는 ‘나쁘다’를 모방하는 수준을 넘어, 각 선택이 얼마나 가치 있는지를 수치적으로 판단하는 ‘가치 함수’를 교사 모델이 학습한 뒤 이를 학생 모델에 전달하도록 설계했다는 점이다. 이를 통해 AI는 애매한 상황에서도 단편적인 비교가 아닌, 선택의 맥락과 이유를 종합적으로 고려하며 학습할 수 있다.

 

연구팀은 문맥 전체를 반영한 가치 판단을 학생 모델에 적용함으로써 보다 일관된 학습을 가능하게 했으며, 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법도 함께 도입했다. 명확한 데이터는 학습에 적극 반영하고, 모호하거나 잡음이 섞인 데이터의 영향은 줄여 현실적인 환경에서도 AI가 안정적으로 학습하도록 한 것이다.

 

여러 AI 모델을 대상으로 한 실험 결과, TVKD 프레임워크는 기존에 최고 성능으로 평가되던 방법들보다 정확도와 안정성 측면에서 모두 우수한 성과를 보였다. 특히 엠티-벤치, 알파카-이밸 등 주요 평가 지표에서 기존 최고 기술을 안정적으로 앞서는 결과를 기록했다.

 

김준모 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 연구는 이러한 제약 속에서도 AI가 일관되게 학습할 수 있도록 해, 다양한 분야에서 실용성이 매우 높을 것”이라고 밝혔다.

 

이번 연구에는 KAIST 전기및전자공학부 권민찬 박사과정이 제1저자로 참여했으며, 연구 성과는 국제 인공지능 분야 최고 권위 학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 채택됐다. 해당 연구는 2025년 12월 3일(미국시간) 포스터 세션에서 발표될 예정이다.

 



배너