2024.11.24 (일)
T 뉴스
멀티미디어
독자 · 소통
[더테크=전수연 기자] 음성 AI 기업 미디어젠이 구글이 개발한 E2E(기업들의 웹 사이트 간에 행해지는 정보나 거래의 교환) 음성인식 시스템인 ‘컨포머(Comformer)’를 벤치마킹해 기존 컨포머의 성능을 유지하면서 처리 속도를 약 40% 향상시킬 수 있는 기능을 선보인다. 미디어젠은 새로운 컨볼루션 네트워크 구조가 증강된 트랜스포머 기반 음성인식 시스템을 개발했다고 26일 밝혔다. 이번 기술 개발은 한국전자통신연구원(ETRI)의 연구인력 현장지원 프로그램을 통해 이뤄졌다. LJSpeech 데이터셋을 이용한 음성인식 실험결과 구글의 컨포머는 CER 4.8%, WER 19.6%의 성능을 보였고 미디어젠의 음성인식 시스템은 CER 4.8%, WER 19.2%의 성능을 보였다. 미디어젠은 이를 바탕으로 자사 시스템이 구글 컨포머 수준의 음성인식 성능을 유지하며 처리속도는 컨포머 서브샘플링 40ms 대비 80ms로 향상됐음을 확인할 수 있었다. 이와 함께 베이스라인이 되는 트랜스포머 기반 음성인식 시스템은 CER 6.9%, WER 23%의 인식 성능을 나타냈다. 본 실험은 순수 신경망의 성능을 평가하기 위해 빔서치 등의 백엔드 처리를 수행하지 않고 아웃풋 노드의
더테크는 ‘스마트 테크 전문‘ 미디어입니다. AI, 사물인터넷, 미래모빌리티 등 인더스트리 4.0 시대를 이끌어갈 딥테크 분야를 중심으로 다양한 ICT 산업컨텐츠를 제공하고 있습니다. 뉴스레터 발송을 위한 최소한의 개인정보를 수집하고 있습니다. 수집된 정보는 발송 외 다른 목적으로 이용되지 않으며 서비스 종료가 되거나 구독을 해지할 경우 즉시 파기됩니다.