開発の特長
独自のEnd-to-End深層学習方式により、多言語対応の高精度な音声認識を実現
- 入出力のサンプルだけで学習できるEnd-to-End深層学習方式※4の採用により、言語特有の専門知識(音素記号や発音辞書)がなくても、発話の言語と内容の同時認識に成功
- End-to-End深層学習方式に、独自の「ハイブリッド CTC/アテンション法」※5と多言語同時学習を採用することで、音声認識精度を向上
- 事前に言語設定することなく、シームレスに多言語の音声認識を実現
- 複数の話者が同時に話し、音声が重なる状況にも対応
- ※4
入力から出力まで様々な処理を行う複数のモジュールを一つの大きなニューラルネットワークに置き換えて学習を行うもの
- ※5
2つの代表的な従来方式である、音声区間と文字列の時間的な対応関係を正確に推定するCTC
(Connectionist Temporal Classification)法と、文字列の音や文章のつながりを考慮するアテンション法の双方の利点を活かし、欠点を補うように組み合わせた独自の方法
開発の概要
5言語(日英仏独伊)の場合 | 10言語の場合 | |
---|---|---|
今回(事前言語設定なし) | 90%以上 | 80%以上 |
従来(事前言語設定あり)※6 | 87% | 72% |
- ※6
言語ごとに音声認識システムを構築・学習し、話される言語が予め分かっている場合
今後の展開
今後、自動車内の会話や、施設案内などのさまざまな状況において、話す言語を意識することなく自由に話せる利便性の高い音声インターフェースの実現を目指して、さらに開発を進めます。
開発担当研究所
Mitsubishi Electric Research Laboratories
201 Broadway, 8th Floor, Cambridge, MA 02139-1955 U. S. A
FAX +1-617-621-7550
http://www.merl.com/
三菱電機株式会社 情報技術総合研究所
〒247-8501 神奈川県鎌倉市大船五丁目1番1号
FAX 0467-41-2142
http://www.MitsubishiElectric.co.jp/corporate/randd/inquiry/index_it.html