開発の特長
- 世界初、独自のEnd-to-End深層学習により、人と機器の円滑な意思疎通を実現
- 入出力のサンプルだけで学習できるEnd-to-End(エンドツーエンド)深層学習※3を採用し、カメラで撮影した画像情報、マイクロフォンで集音した音響情報、ライダーやレーダーで取得した位置情報などのマルチモーダルセンシング情報から、周囲で起きている状況を機器が理解
- マルチモーダルセンシング情報の中で重要度の高い情報に自動で重み付けを行う、独自のマルチモーダル・アテンション法を用いて、機器が理解した内容に対し自然な言葉を用いて詳細に表現するような学習モデルを構築
- 機器が理解したこれまでの状況や人の発話の履歴から自然な言葉を生成することで、人と機器との円滑な意思疎通を実現
- 従来の視覚情報のみの手法と比較し、CIDEr※4での評価が29%改善
- ※3
入力から出力までさまざまな処理を行う複数のモジュールを複数の層から構成される一つの大きなニューラルネットワークに置き換えて行う学習。既存の個別のモジュールの組み合わせに対し、全体を最適化した学習を行うことで性能を向上させることが可能
- ※4
CIDEr(Consensus-Based Image Description Evaluation):機器が理解した内容が、人間が理解した内容とどれだけ類似しているかを示す評価尺度。複数の人が作成した状況説明文の中から、より多くの人が用いた単語列を重要な要素とみなし、比較評価したものである
参考情報
Scene-Aware Interaction技術の経路案内システムにおけるデモ動画
https://youtu.be/zcA6p4DEIHU
開発担当研究所
Mitsubishi Electric Research Laboratories
201 Broadway, 8th Floor, Cambridge, MA 02139-1955 U. S. A
FAX +1-617-621-7550
http://www.merl.com/
三菱電機株式会社 情報技術総合研究所
〒247-8501 神奈川県鎌倉市大船五丁目1番1号
FAX 0467-41-2142
http://www.MitsubishiElectric.co.jp/corporate/randd/inquiry/index_it.html