ETRI, 5개 국어 음성 데이터베이스 배포
ETRI, 5개 국어 음성 데이터베이스 배포
대화체 200만 음성DB, 300만 문장DB 제공
  • 남현우 기자
  • 승인 2019.02.27 11:08
  • 댓글 0
이 기사를 공유합니다

[굿모닝충청 남현우 기자] 한국전자통신연구원(이하 ETRI)은 국내에서 처음으로 태국어, 말레이어, 인도네시아어, 아랍어, 베트남어 등 5개 국어 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다고 27일 밝혔다.

음성 DB는 인공지능(AI) 스피커, 내비게이션, 사물인터넷(IoT) 등 음성인식 및 번역 SW개발에 기초가 되는 핵심 자료인데, 그동안 비용, 관련 자료의 부재 등으로 이를 확보하는 과정에 어려움이 많았다.

이에 ETRI가 ▲태국어 ▲말레이어 ▲인도네시아어 ▲아랍어 ▲베트남어 ‘대화체 음성DB 200만 발화(發話)’와 ▲영어–태국어 ▲영어–말레이어 ▲영어–인도네시아어 ▲영어–아랍어 ▲영어–베트남어 ‘대화체 대역(對譯)문장DB 300만 문장’을 배포하게 된 것.

태국어, 말레이어, 인도네시아어는 국내 최초로 제공되며, 아랍어 및 베트남어는 ETRI 기존 자료에 데이터양을 늘려 배포한다.

특히 이번 DB는 최대한 많은 사람들의 언어 데이터를 얻기 위해 크라우드 소싱(Crowd sourcing) 기법을 도입했다.

포인트를 제공해 일반 사용자들의 참여를 유도한 결과 총 2만 5000여 명이 발화에 참여했으며, 같은 예산으로 기존보다 최대 8배 많은 데이터를 수집할 수 있었다고 ETRI는 설명했다.

단순히 데이터양만 늘린 것이 아니라 높은 정확도까지 확보했다. 외부 감리 업체 측정 결과 99% 이상의 높은 품질을 인증 받았다.

ETRI 음성지능연구그룹 윤승 박사는“음성 DB를 활용해 언어음성기술을 개발할 경우, 다양한 외국 신규시장 진출 및 국가 경쟁력 강화에 큰 기여를 할 것”이라고 기대했다.

그동안 ETRI는 외국 기술 잠식을 차단하고 국내 기업들의 관련 기술 수출 증진을 위해 지능형 언어음성 데이터를 꾸준히 확보해왔다.

지난 2011년부터 한·영·일·중 등 다국어 언어 음성 DB를, 2014년에는 프랑스어, 2015년에는 독일어, 러시아어, 아랍어, 베트남어를 구축, 배포한 바 있다.

ETRI에 따르면 현재까지 삼성전자, LG전자, KT, 네이버, 카카오, 엔씨소프트, 보이스웨어, 셀바스AI, 시스트란 인터내셔널, 솔트룩스 등 국내 60개 기관에 367건의 DB를 배포, 550억 원 상당의 비용 절감 성과를 얻었다.

ETRI는 이번 DB 역시 국내 10개 기관에 배포할 경우, 최소 150억 원의 수입대체 효과를 얻을 수 있을 것으로 보고 있다.

ETRI가 배포 중인 DB목록은 총 45종으로 ETRI 홈페이지에서 찾아볼 수 있다. 이번 추가 공개하는 DB도 홈페이지를 통해 확인이 가능하다.

향후 연구진은 기존 배포 언어들의 정확도 및 데이터 품질 개선에 나서는 한편 영어, 중국어, 일본어 음성 데이터 구축을 위해 노력할 예정이다.

한편 이번 연구는 행정안전부가 한국정보화진흥원을 통해 추진한 ‘다국어 5종의 음성과 영어대역문장 DB 구축 및 개방’ 사업의 일환으로 진행됐다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 굿모닝충청(일반주간신문)
  • 대전광역시 서구 신갈마로 75-6 3층
  • 대표전화 : 042-389-0080
  • 팩스 : 042-389-0088
  • 청소년보호책임자 : 송광석
  • 법인명 : 굿모닝충청
  • 제호 : 굿모닝충청
  • 등록번호 : 대전 다 01283
  • 등록일 : 2012-07-01
  • 발행일 : 2012-07-01
  • 발행인 : 송광석
  • 편집인 : 황해동
  • 창간일 : 2012년 7월 1일
  • 굿모닝충청(인터넷신문)
  • 대전광역시 서구 신갈마로 75-6 3층
  • 대표전화 : 042-389-0087
  • 팩스 : 042-389-0088
  • 청소년보호책임자 : 송광석
  • 법인명 : 굿모닝충청
  • 제호 : 굿모닝충청
  • 등록번호 : 대전 아00326
  • 등록일 : 2019-02-26
  • 발행인 : 송광석
  • 편집인 : 황해동
  • 굿모닝충청 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2022 굿모닝충청. All rights reserved. mail to gmcc@goodmorningcc.com
ND소프트