AI 시대 서막에서 ‘가이드라인’ 필요한 이유

[전문가 인터뷰-금득규 유한대학교 인공지능학과 교수 上]

스마트 테크‧산업 전문 미디어 <더테크>가 다양한 테크 분야의 전문가 인터뷰를 진행합니다. 현재 주목되는 테크 영역에 대한 독자 여러분의 이해를 돕고 현재의 흐름을 짚어보기 위함입니다. 해당 분야에 관심을 가진 독자 여러분에게 좋은 인사이트가 되기를 바랍니다.

<지난 전문가 인터뷰 보기>
 

[DX] 김형택 디지털이니셔티브그룹 대표 上

[DX] 김형택 디지털이니셔티브그룹 대표 下

[디지털헬스케어] 이병일 머스트 액셀러레이터 파트너 上

[디지털헬스케어] 이병일 머스트 액셀러레이터 파트너 下
[로봇] 고경철 전 카이스트 전자공학부 연구교수 上
[로봇] 고경철 전 카이스트 전자공학부 연구교수 下

 

 

 

인공지능(AI)은 필연적인 기술이다. 하나의 임팩트나 트렌드란 평가도 이젠 식상하다. 빅테크의 실험실에서 나와 대중에게 공개된 AI는 거의 모든 산업과 융합했다. 그리고 AI의 발전 속도는 전문가는 물론이고 대중에게 충격적으로 다가올 만큼 빠르다.

 

금득규 유한대학교 인공지능학과 교수는 AI가 급격히 대중에게 파고든 이유는 그간 축적된 기술력과 니즈에 있다는 견해다. 그리고 이 새로운 기술을 안정적으로 받아들이기 위해서는 가이드라인이 필요하다고 말했다.

 

하나의 가능성을 지닌 기술이 아닌, 대중과 함께할 AI의 방향성에 대해 고민할 시점이라는 이야기다. 금 교수가 생각하는 AI의 현재와 미래는 과연 무엇일까.

 

인터뷰에 앞서 간단한 본인 소개를 부탁드립니다.

 

인터뷰 질문보다 어려운 질문인 것 같습니다. 아무래도 제가 다양한 분야에서 일했던 개발자 출신이라 더 그런 것 같습니다.

 

가장 먼저 시작한 분야는 GIS(Geographic Information System, 지리 정보 시스템) 기반의 다양한 응용 서비스를 개발하는 일이었고, 그 때 함께 일했던 입사 동기가 지금의 카카오맵으로 유명한 김기사라는 네비게이션을 개발한 신명진 ’김기사랩‘ 대표입니다. 국내 최초이자 유일하게 GIS 엔진과 편집 툴을 개발한 회사였습니다.

 

이후 회계ERP로 유명한 더존비즈온 연구소에서 ERP 개발을 했었고, 빅테크 기업인 구글, 애플, 페이스북, IBM, LG 등 기업은 물론 국내외 56여개 대학에서 쓰이는 UML(Unified Modeling Language, 통합 모델링 언어) 모델링 툴인 ‘StarUML‘ 개발에도 참여했습니다.

 

한글과컴퓨터에서는 미래전략실에서 빅데이터, 클라우드 등 기술을 이용한 정부 R&D 과제 수행을 하기도 했습니다.

 

지금은 유한대에서 인공지능을 가르치고 있죠. 주된 연구 분야는 AI 학습모델과 빅데이터 분석, 소프트웨어 아키텍처입니다. 최근에도 AI와 빅데이터 관련 SCI(Science Citation Index) 논문을 게재하고 유럽 등 해외 대학교수님들과도 활발히 교류하고 있습니다.

 

최근 생성형 AI와 관련한 서비스가 쏟아지고 있습니다. MS와 구글, 아마존의 경쟁에 이어 한국에서는 네이버의 하이퍼클로바X가 공개를 앞둔 시점입니다.

 

네이버가 작년부터 AI 음성 서비스로 클로바 케어콜을 진행했죠. 어르신들이 사람인 줄 알았다고 할 정도로 발달한 서비스인데, 조만간 공개될 하이퍼클로바X는 우리나라에 특화된 모델일 것 같습니다. 우리나라의 데이터를 훨씬 더 많이 학습한 LLM(Large Language Models, 거대 언어 모델)이죠.

 

네이버 데이터 센터 사업은 일반에게도 잘 알려진 만큼 엄청난 규모입니다. 네이버에서 새로 나올 서비스가 기획만 잘하면 굉장히 좋을 것 같습니다. ‘한국어’에 특화된 서비스라는 의미도 있고요. 아직 한글의 경우엔 영어나 한자보다 학습량이 적으니까요. 그래도 네이버는 오랜 기간 한국에서 다양한 서비스를 진행한 기업이고 LLM에게 학습시킬 데이터나 노하우가 충분할 것으로 예상합니다.

 

일정 이상 규모의 모델을 운영하려면 데이터 센터를 시작으로 많은 자원을 소모합니다. 시스템 구축 등 자본이 필요하죠. 이걸 할 수 있는 곳이 몇 군데 없어요. 네이버나 삼성, SK 등이 있겠습니다. 특히, SK텔레콤은 AI컴퍼니로의 전환에 적극적이에요. 굉장히 많은 투자를 하고 있죠.

 

정부·공공기관의 영역에서는 기상청이나 건강보험심사평가원(이하 심평원)이 있습니다. 심평원은 다소 생소하실 수 있겠지만, 진료와 처방에 관련한 데이터를 실시간으로 처리하기 때문에 상당한 퍼포먼스를 자랑하는 시스템을 구축하고 있습니다.

 

LLM의 학습량과 관련해 조금 더 자세한 설명을 듣고 싶습니다.

 

트랜스포머 모델이 적용된 최근 생성형 AI는 한국어를 이전보다 잘하고 답변도 곧 잘합니다. 한글 자체가 어려운 편이긴 해요. 어절별로 형태소 분석이라든가 자연어처리 기술이 적용되어도 예를들면 버트(BERT) 같은 알고리즘을 가지고도 힘든 부분이 많았어요.

 

그런데 OpenAI의 GPT 3.5부터 엄청난 발전이 이뤄졌고 4.0에서는 자연스러운 대화부터 영상, 그림, 소설, 시, 소스코드 등 다양한 분야의 결과물을 탁월한 품질로 생성합니다. 앞으로 발전 속도가 더 빨라질 것으로 보입니다. 기업이 관심을 두고 정부에서도 ‘인공지능 학습용 데이터 구축’ 등 사업을 진행해 데이터는 계속 늘어나고 있습니다. 국립국어원에서도 말뭉치 같은 사업을 꾸준히 진행하죠.

 

특정 시점이나 데이터를 기준으로 삼을 수 있는 것은 아니지만 데이터가 계속 축적되고 있다는 점은 긍정적입니다. 기술적인 격차도 점차 줄어들겠죠. 아직은 챗GPT를 보더라도 영어가 훨씬 더 정확한 답이 나와요.

 

기상청과 심평원에 관한 이야기가 나와서 드리는 질문인데 AI와 관련해 과거 AI허브, 데이터바우처 등 데이터 축적 및 개방 관련 지원 사업이 국가 경쟁력 제고 차원에서 필요하다는 의견도 있습니다.

 

필요하죠. 심평원은 2014년부터 건강보건 의료 데이터 개방 시스템 구축 사업을 9년째 진행해 고도화까지 거의 끝났거든요. 다만 건강보험공단이나 보건산업진흥원 그리고 여러 병·의원과 연동돼있어요. 한 기관의 데이터만 가지고 유의미한 정보를 뽑기 어렵습니다.

 

생성형 AI에서도 텍스트에 국한된 것이 아니라 여러 방면에서 정보를 주고받는 멀티모달(Multimodal)로 발전하듯, 심평원의 데이터도 병·의원의 EMR(Electronic Medical Record, 전자의무기록)이나 건강보험공단이 보유한 가입자 정보와 융복합되면 훨씬 더 유의미한 서비스를 만들 수 있습니다.

 

아쉽게도 현실은 그렇게 쉽지만은 않습니다. 다른 기관에서도 자체 데이터 축적이나 정리는 진행됐지만, 서비스로 푸는 문제는 조금 다른 문제입니다. 데이터 형식의 표준화나 플랫폼·통합 시스템 구축 등 협의와 준비가 필요한 부분이 있습니다. 최근엔 많이 해소돼서 생태계를 조성하려는 분위기는 감지됩니다.

 

데이터 관련 정부 사업의 역사가 궁금합니다. 다른 나라의 사례도 있을까요? 그리고 이러한 작업이 충실히 진행되고 있었는데, 일반 사람들이 체감하기 힘든 이유도 궁금합니다.

 

실질적인 시작은 2012년 즈음입니다. 그에 앞서 일부 시작된 부분이 있으니까 2010년대 초반으로 볼 수 있죠. 보건의료 분야가 좀 빠른 편이었어요. 미국이나 유럽 같은 선진국들은 2000년대 초반부터 시작했죠. 이러한 자료들은 제가 컨설팅을 하면서 찾아봤던 기억이 납니다.

 

데이터를 모으는 작업을 시작으로 AI와 관련한 연구개발은 정부 주도하에 다양한 시도가 있었습니다. 이를 서비스로 발전시키려는 시도도 있었고요. B2G(Business to Government, 기업 대 정부 거래)의 특성상 일반에 알려지기 어려운 부분도 있습니다.

 

일반에게 알려진 서비스 영역보다 특정 시스템에 녹아들거나 내재된 성과로 기관에서 사용되고 있을 수 있습니다. 이런 성과들이 쌓여 인프라나 생태계 조성에 일조하고 있습니다. 정말 대중에 관심을 끈 서비스나 혁신이 아니면 기술적인 부분이나 전문 영역에 관심도는 다소 낮을 수밖에 없거든요.

 

우리나라의 문화적인 요인도 있겠지만 연구개발 현장에서는 ‘성실 실패’라는 말이 있습니다. 모순적인 단어죠? 어떤 연구에 자본이 들어가고 기간과 목표를 설정한다지만 모두 성공할 수 없잖아요. 과정이 성실했다면 실패는 실패가 아니고 경험의 축적으로 볼 수 있습니다. 하지만 이를 악용하는 사례에 대해서는 적절한 조치도 필요합니다. 이 부분이 정말 어렵습니다.

 

AI와 관련한 저작권이나 가짜 뉴스, 환각 현상처럼 법이나 윤리 등을 이유로 부정적인 시선도 있습니다.

 

이전에도 비슷한 사례가 있었습니다. 지금은 대중화된 클라우드 서비스죠. 2010년 전후를 기점으로 클라우드가 우리나라에서 화제가 되면서 보안과 저작권 그리고 개인 정보 보호 등 다양한 우려의 목소리가 있었습니다. 그때와 비슷한 양상을 보여요. 굉장히 많이 연구되고 비즈니스 영역이 열렸죠.

 

그때 어떤 회의에서 한 사례를 들었던 기억이 납니다. 미국의 어느 초등학교에서 진행된 실험이었는데 운동장 외곽에 울타리나 담 같은 경계선이 있어요. 이걸 없애버리면 더 자유롭게 아이들이 놀 수 있다고 생각해서 없앴는데 오히려 중앙으로 모이는 결과가 나왔어요. 어디가 경계인지 모르니까 더 위축됐던 거죠. 다시 경계선을 만드니까 그 안에서 마음대로 뛰어다니더라는 결론이 나왔어요.

 

이와 비슷합니다. 클라우드에 누가 자기 정보나 사진을 올리냐는 식으로 부정적인 반응을 보인 분들도 많았어요. 클라우드와 관련한 기술을 둘러싼 논의도 필요했죠. 관련 사례의 축적도 필요하고요.

 

운동장 이야기에서 울타리는 이전에 있었던 혹은 정해진 부분이지만 새로운 기술은 이 기준을 잡는 것이 중요합니다. 충분한 논의가 필요한 부분이죠. 하지만 이러한 제도가 들어서면 그 안에서 활발한 연구와 함께 고도화가 진행될 것으로 생각합니다.

 

AI와 관련한 부정적인 시선은 가이드라인이 만들어지면 상당 부분 해소될 것으로 보시나요?

 

네 자연스럽게 해소될 것으로 보입니다. 클라우드와 비슷한 양상을 보인다면요. 그리고 AI 보안 솔루션 분야의 약진이 기대됩니다. 새로운 기술이 나오면 관련한 논의가 진행되고 제도가 나오면 수요에 따라 솔루션이 나올 겁니다.

 

생셩형 AI의 기반인 트랜스포머 모델은 단어 하나 하나에 다음 단어를 연결하는데 그 확률 분포가 있습니다. 이걸 리버스 엔지니어링(Reverse Engineering, 역설계) 해보면 AI가 생성한 것인지 출처를 알 수 있다고 합니다. 이 구조를 분석하다 보면 말씀하신 부분에 대한 보완이 진행되고 관련한 제도도 만들어질 것으로 보입니다.

 

<下편에 계속>

 

금득규 교수는…

숭실대에서 석·박사 학위를 취득하고 카카오 맵의 전신인 ‘김기사’ 네비게이션 개발자와 GIS 개발을 시작으로, 국내 유일 UML/MDA 플랫폼인 ‘StarUML’을 개발에 참여했다. 이후 한글과컴퓨터 미래전략실 수석을 거쳐 유한대학교에서 인공지능학과 교수로 재임 중이다.

 

StarUML은 우리나라 최초의 인공위성인 무궁화 인공위성 관제시스템 설계에 사용됐고. 최근 방산 수출 품목 중 하나인 전투기의 기반이 된 T-50 관련 소프트웨어 설계에도 사용됐다.

 

또한, 건강보험심사평가원 빅데이터 자문위원을 시작으로 교육부 빅데이터 자문위원, 한국지능정보사회진흥원(NIA), 정보통신산업진흥원(NIPA), 정보통신기획평가원(IITP) 등 공공기관과 지자체에서 진행하는 AI 관련 사업의 평가위원으로 활동하고 있다. 꾸준히 SCI급 논문을 게재하면서 국제 학술 활동에도 적극적이다.

 


관련기사

17건의 관련기사 더보기

배너