[더테크=전수연 기자] 음성 AI 기업 미디어젠이 구글이 개발한 E2E(기업들의 웹 사이트 간에 행해지는 정보나 거래의 교환) 음성인식 시스템인 ‘컨포머(Comformer)’를 벤치마킹해 기존 컨포머의 성능을 유지하면서 처리 속도를 약 40% 향상시킬 수 있는 기능을 선보인다.
미디어젠은 새로운 컨볼루션 네트워크 구조가 증강된 트랜스포머 기반 음성인식 시스템을 개발했다고 26일 밝혔다.
이번 기술 개발은 한국전자통신연구원(ETRI)의 연구인력 현장지원 프로그램을 통해 이뤄졌다. LJSpeech 데이터셋을 이용한 음성인식 실험결과 구글의 컨포머는 CER 4.8%, WER 19.6%의 성능을 보였고 미디어젠의 음성인식 시스템은 CER 4.8%, WER 19.2%의 성능을 보였다.
미디어젠은 이를 바탕으로 자사 시스템이 구글 컨포머 수준의 음성인식 성능을 유지하며 처리속도는 컨포머 서브샘플링 40ms 대비 80ms로 향상됐음을 확인할 수 있었다.
이와 함께 베이스라인이 되는 트랜스포머 기반 음성인식 시스템은 CER 6.9%, WER 23%의 인식 성능을 나타냈다. 본 실험은 순수 신경망의 성능을 평가하기 위해 빔서치 등의 백엔드 처리를 수행하지 않고 아웃풋 노드의 범주형 교차 엔트로피만으로 학습·평가가 진행됐으며, 음성인식에 필요한 유닛으로는 알파벳 기반의 캐릭터(character)를 이용해 인식 난이도가 높다.
이번에 개발된 미디어젠 AIMZ 연구소의 컨볼루션 구조는 범용성에 초점을 맞추고 있기 때문에 엔코더뿐만 아니라 디코더의 성능을 향상시켜준다. 특히 미디어젠은 임베디드 솔루션 개발과 향후 AI 로봇이나 소형 전자기기 등 네트워크가 없는 기기에 탑재할 수 있는 빠른 속도의 엔진 공급을 추진 중이다.