![]() |
↑ 한국전자통신연구원(ETRI)이 구축한 외국어 음성 데이터베이스(DB)의 대화체 음성을 분석하고 있는 모습. |
한국전자통신연구원(ETRI) SW콘텐츠연구소 연구진은 최근 5개국 언어의 대화체 음성 DB 200만 발화(發話)와 대화체 영어대역 DB 300만 문장을 확보했으며, 이를 같은 수준의 해외 DB 단가(언어당 1~2억 원)의 5%에 불과한 수준으로 국내 기업 등에 제공하기로 했다고 27일 밝혔다. ETRI는 태국어, 말레이시아어, 인도네시아어 DB를 이번에 처음 구축했고 기존의 아랍어와 베트남어 DB는 데이터량을 대폭 늘렸다.
연구진은 많은 사람들이 발화에 참여하는 크라우드 소싱(집단지성) 방식을 통해 2만5000여 명의 대화체 음성과 영어대역 문장을 확보했다. 집단지성을 통한 검증 과정을 거친 덕분에 외부 감리업체에 의뢰해 검토한 결과, DB의 데이터 정확도 역시 99% 이상인 것으로 확인됐다.
이번에 구축된 DB를 10개 기업에 제공한다고 가정하면 총 150억 원 상당의 수입 대체 효과를 얻을 수 있을 것으로 추산된다. 윤승 ETRI 음성지능연구그룹 프로젝트리더는 "본 DB를 활용해 언어음성기술을 개발할 경우 다양한 외국 신규시장에 진출하는 데 도움이 될 것"이라고 밝혔다.
ETRI는 2011년부터 현재까지 삼성전자, LG전자, KT, 네이버, 카카오, 엔씨소
[송경은 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]