三菱電機株式会社は、独自のAI技術を用いて世界で初めて※1、マイク1本で録音した2者および3者が同時に話す音声を分離し、きれいに再現することに成功しました。より聞き取りやすい音声通話や高性能な音声認識の実現に貢献します。
- ※12017年5月24日現在(当社調べ)
開発の特長
- 世界で初めてマイク1本で録音した2者および3者の同時音声を分離し再現
- ・事前に登録されていない3者の同時音声の分離・再現において原音再現率80%以上※2を達成
- ・2者の同時音声では原音再現率90%以上※2を達成(従来51%)
- ・女性同士や男性同士に加え、異なる言語の同時音声にも対応
- ※2理想的な録音環境でのシミュレーション値(ノイズが少なく、話者の音量が同程度の録音環境)
- 当社独自のAI技術「ディープクラスタリング」で各話者の音声を抽出・再現
- ・ディープラーニングを用いて、音声成分の特徴から話者を分類する変換処理を学習
- ・学習した変換処理を入力音声に適用し、クラスタリング処理※3で音声成分を分離
- ・分離した音声成分を合成することで各話者の声を再現
- ※3データの類似度に従っていくつかのグループに分ける処理
開発の概要
原音再現率
マイク1本で録音した2者の同時音声を分離 | マイク1本で録音した3者の同時音声を分離 | |
今回 | 90%以上 | 80%以上 |
従来 | 51% | ─ |
今後の展開
自動車・家庭・エレベーターの中などの音声認識システムにおいて、音声通話の品質改善や音声認識の性能向上を目指します。
お問い合わせ先
Mitsubishi Electric Research Laboratories
201 Broadway, 8th Floor, Cambridge, MA 02139-1955 U. S. A
FAX +1-617-621-7550
三菱電機株式会社 情報技術総合研究所
〒247-8501 神奈川県鎌倉市大船五丁目1番1号
FAX 0467-41-2142
http://www.MitsubishiElectric.co.jp/corporate/randd/inquiry/index_it.html