[굿모닝충청 남현우 기자] 한국전자통신연구원(이하 ETRI)은 국내에서 처음으로 태국어, 말레이어, 인도네시아어, 아랍어, 베트남어 등 5개 국어 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다고 27일 밝혔다.
음성 DB는 인공지능(AI) 스피커, 내비게이션, 사물인터넷(IoT) 등 음성인식 및 번역 SW개발에 기초가 되는 핵심 자료인데, 그동안 비용, 관련 자료의 부재 등으로 이를 확보하는 과정에 어려움이 많았다.
이에 ETRI가 ▲태국어 ▲말레이어 ▲인도네시아어 ▲아랍어 ▲베트남어 ‘대화체 음성DB 200만 발화(發話)’와 ▲영어–태국어 ▲영어–말레이어 ▲영어–인도네시아어 ▲영어–아랍어 ▲영어–베트남어 ‘대화체 대역(對譯)문장DB 300만 문장’을 배포하게 된 것.
태국어, 말레이어, 인도네시아어는 국내 최초로 제공되며, 아랍어 및 베트남어는 ETRI 기존 자료에 데이터양을 늘려 배포한다.
특히 이번 DB는 최대한 많은 사람들의 언어 데이터를 얻기 위해 크라우드 소싱(Crowd sourcing) 기법을 도입했다.
포인트를 제공해 일반 사용자들의 참여를 유도한 결과 총 2만 5000여 명이 발화에 참여했으며, 같은 예산으로 기존보다 최대 8배 많은 데이터를 수집할 수 있었다고 ETRI는 설명했다.
단순히 데이터양만 늘린 것이 아니라 높은 정확도까지 확보했다. 외부 감리 업체 측정 결과 99% 이상의 높은 품질을 인증 받았다.
ETRI 음성지능연구그룹 윤승 박사는“음성 DB를 활용해 언어음성기술을 개발할 경우, 다양한 외국 신규시장 진출 및 국가 경쟁력 강화에 큰 기여를 할 것”이라고 기대했다.
그동안 ETRI는 외국 기술 잠식을 차단하고 국내 기업들의 관련 기술 수출 증진을 위해 지능형 언어음성 데이터를 꾸준히 확보해왔다.
지난 2011년부터 한·영·일·중 등 다국어 언어 음성 DB를, 2014년에는 프랑스어, 2015년에는 독일어, 러시아어, 아랍어, 베트남어를 구축, 배포한 바 있다.
ETRI에 따르면 현재까지 삼성전자, LG전자, KT, 네이버, 카카오, 엔씨소프트, 보이스웨어, 셀바스AI, 시스트란 인터내셔널, 솔트룩스 등 국내 60개 기관에 367건의 DB를 배포, 550억 원 상당의 비용 절감 성과를 얻었다.
ETRI는 이번 DB 역시 국내 10개 기관에 배포할 경우, 최소 150억 원의 수입대체 효과를 얻을 수 있을 것으로 보고 있다.
ETRI가 배포 중인 DB목록은 총 45종으로 ETRI 홈페이지에서 찾아볼 수 있다. 이번 추가 공개하는 DB도 홈페이지를 통해 확인이 가능하다.
향후 연구진은 기존 배포 언어들의 정확도 및 데이터 품질 개선에 나서는 한편 영어, 중국어, 일본어 음성 데이터 구축을 위해 노력할 예정이다.
한편 이번 연구는 행정안전부가 한국정보화진흥원을 통해 추진한 ‘다국어 5종의 음성과 영어대역문장 DB 구축 및 개방’ 사업의 일환으로 진행됐다.