카이스트, 인공지능을 위한 학습 데이터 선택 기법 개발

카이스트의 연구에서 제안하는 알고리즘이 학습 데이터를 선택하는 예시. [자료=카이스트]

[더테크=조재호 기자] 카이스트가 데이터 분포가 변화하는 환경에서도 좋은 성능을 유지할 수 있는 인공지능 학습 기법을 개발했다.

카이스트는 14일 황의종 전기및전자공학부 교수 연구팀이 시간에 따라 데이터의 분포가 변화하는 드리프트 환경에서도 인공지능(AI)이 정확한 판단을 내리도록 돕는 새로운 학습 데이터 선택 기술을 개발했다고 밝혔다.

최근 AI가 다양한 분야에서 인간의 능력을 뛰어넘을 정도로 높은 성능을 보여주고 있지만 대부분의 좋은 결과는 모델을 훈련시키고 성능을 테스트할 때 데이터 분포가 변하지 않는 정적인 환경을 가정함으로써 얻어진다.

하지만 이러한 테스트 환경과 달리 SK 하이닉스의 반도체 공정 과정에서는 시간에 따른 장비 노화와 주기적인 점검으로 인해 데이터 관측값이 변화하는 드리프트 현상이 관측되고 있다. 시간이 지나면서 데이터와 정답 레이블 간의 결정 경계 패턴이 변경되면 과거에 학습된 AI 판단이 현재 시점에서는 부정확하게 되면서 모델의 성능이 점차 악화될 수 있다는 것이다.

연구팀은 이러한 문제를 해결하기 위해 데이터를 학습했을 때 AI 모델의 업데이트 정도와 방향을 나타내는 그래디언트를 활용한 개념을 도입했다. 이 개념은 드리프트 상황에서 학습에 효과적인 데이터를 선택하는 데 도움을 줄 수 있다는 것을 이론적으로 실험해 분석했다.

분석을 바탕으로 데이터의 분포와 결정 경계가 변화해도 모델을 강건하게 학습할 수 있는 지속 가능한 데이터 중심의 AI 학습 프레임워크를 제안했다.

이번에 제안한 프레임워크는 변화하는 데이터에 맞춰 모델을 적응시키는 모델 중심의 AI 기법과 달리 드리프트의 주 원인인 데이터 자체를 직접 전처리해 학습에 최적화된 데이터로 변경해 AI 모델 종류와 상관없이 쉽게 확장할 수 있다는 점이다. 데이터 분포가 변화해도 AI 모델의 성능과 정확도를 안정적으로 유지할 수 있다는 것이다.

황의종 교수는 “AI가 변화하는 데이터에 대해서도 성능이 저하되지 않고 유지하는 데에 도움이 되기를 기대한다”고 말했다.

이번 연구는 지난 2월 캐나다 밴쿠버에서 열린 인공지능 최고 권위 국제학술대회인 ‘국제 인공지능 학회(Association for the Advancement of Artificial Intelligence, AAAI)’에서 발표됐다.

CATEGORY