AI技術の発展により、急速に進化を続けている音声ソリューション。三菱電機インフォメーションシステムズ株式会社(MDIS)では、20年以上にわたって培ってきた音声系システムのノウハウを駆使したソリューションの開発をお客様との共創によって加速しています。2024年度は新たに音声分離サービス「waketekoo(ワケテコー)」と感情分析サービス「emoiwa(エモイワ)」を開発。2つのサービスにより、金融機関やコンタクトセンターなどの音声データを用いる業務において、作業の効率化、コスト削減、コンプライアンス強化などを実現します。
左から、ビジネスイノベーション部長 藤田 喜広 氏、
ビジネスイノベーション部 データ・ストラテジーグループ(以下同じ)
サーティファイド・プロフェショナル 西健 太朗 氏、羅 玉てい 氏、
サーティファイド・プロフェショナル 白浜 広彬 氏、藤川 皓一朗 氏、
サーティファイド・プロフェショナル 渡邊健太 氏
人を理解するAI技術を活用した音声分析ソリューションの高度化
MDISが提供する音声ソリューションの始まりは、金融機関のコンプライアンス対策を目的とした通話録音システムでした。大手の証券会社や銀行において、1社1万席を超える通話録音を主体とした大規模音声システムを開発しました。
「以来、証券会社のディーリングフォン、音声テキスト化/分析システムなどのソリューションを開発しています。近年は、音声分析の領域において『人を理解するAIモデル』を開発して金融機関などに提供しています」とDXソリューション事業部 ビジネスイノベーション部長の藤田喜広氏は語ります。
こうした背景を受けて新たに開発したのが音声分離サービスの「waketekoo」と感情分析サービスの「emoiwa」です。waketekooは三菱電機のAI技術Maisart(マイサート)をもとにMDISが開発したもので、emoiwaはMDISが金融機関に導入した感情分析システムを踏まえてサービス化したものです。
「昨今、サービス業における接客対応や保守員の教育、営業支援など人間が行動主体となる分野において、現実世界の環境をデジタル上で再現する『デジタルツイン』が広がりを見せています。MDISの『人を理解するAI』はデジタルツインに相当するものです。様々なコミュニケーションで発生した音声を、独自の録音基盤や音声認識基盤でデジタル化して蓄積し、人を理解するAIで分析することで、現実世界の営業やコンタクトセンターのオペレーターなどを支援します」(藤田氏)
重複音声を話者ごとに分離する音声分離サービス「waketekoo」
「waketekoo」は、録音したモノラル音声から発話が重複している部分も含めて話者ごとに分離するサービスです。従来の技術では、同時発話部分の音声認識が困難でした。そこでMDISは、重複音声を話者ごとに分離して認識精度を高めるwaketekooを開発。同部の西健太朗氏は次のように語ります。
「waketekooは、Maisartの特長である軽量でコンパクトなAIを採用しています。AIで一般的に使用される高価なGPUは不要でCPUのみで動作するため、コスト面で導入のハードルを下げることができます。ユースケースとしては、モノラル録音が採用されている金融機関のディーリングフォン、シングルマイクでモノラル録音するケースが多い店舗窓口や訪問型営業での利用などを想定しています」
waketekooは、MDISの入社1年目の社員が三菱電機 情報技術総合研究所で音声分離技術のデモを見たことが開発の発端になりました。
発案者である同部の羅 玉てい氏は次のように語ります。「音声分離のデモを見て興味を惹きました。そこで企画を立案。その後、ベンチマークを実施し、ユースケースを念入りに検討したうえで、MDISの強みを活かした音声ソリューションとして開発することが決まりました」
waketekooは、システムに組み込む「モジュール提供型」とクラウドサービスの「クラウドAPI型」の2形態で提供されます。
「クラウドAPI型はアマゾンウェブサービス(AWS)のサーバーレスアーキテクチャを採用してスケーラブルなサービスを実現しました。アジャイル開発で取り組むことで、新たなノウハウを習得し、柔軟で迅速な開発体制を確立しました」(羅氏)
離職予兆を検知する感情分析サービス「emoiwa」
「emoiwa」は、通話音声データを対象に会話に込められた感情をAIで分析することでオペレーターの離職確率などを予測するサービスです。多くのコンタクトセンターでは、オペレーターの早期離職が課題となっています。さらに、カスタマーハラスメント(カスハラ)が増加していることで、オペレーターのストレスがさらに高まっています。このような状況を踏まえ、感情分析によって離職確率の高いオペレーターをリストアップし、早期にケアすることで人手不足の解消などを図る目的でemoiwaを開発しました。同部の渡邊健太氏は次のように語ります。
「当社がコンタクトセンターシステムの構築・運用を支援している金融機関からの相談で開発がスタートしました。2023年に予測モデルを構築して検証してみたところ70%を超える予測精度を記録しました。加えて、オペレーターの応対スキルと顧客満足度を判定する予測モデルでも目標値をクリアできたことからサービス化に踏み切りました。モジュール提供型だけでなく、閲覧用のダッシュボードも含めて提供するSaaS型、オンプレミス型の3種類を用意しました」
emoiwaの特長は、音声認識システムで取得した「音声テキスト」と「感情値」を同時に分析することにあります(特許出願中)。同部の白浜広彬氏は次のように語ります。
「発話者の感情を指標化した感情値は実用化されていたものの、単純な使い方に限られていました。そこで、音声テキストと組み合わせてオペレーターの離職率改善に適用することを考えました。感情値と組み合わせることで、同じ『分かりました』でも普通に返事をしているのか、感情が沈んでいるのかを判断することができます。ただし、感情値は個人によるゆらぎが大きいため、実証実験を入念に実施することで目標値をクリアしました」
これらのサービスはネーミングにもこだわりました。同部の藤川皓一朗氏は「emoiwaの名称は、慣用句の“得も言わず”と、英語の“emotional”から、言葉にせずとも感情を理解してくれるサービスになって欲しいという期待を込めて命名しました。waketekooについても、“分ける”と“エコー”の間に“テ”を加えてワケテコーにしました」
付加価値の高い分析機能を提供し
お客様のデータドリブン経営に貢献
MDISは2つのサービスの機能強化を継続的に進めていく予定です。waketekooの展望について西氏は次のように話します。「重複話者分離の複数人対応と、リアルタイム音声の分離に取り組んでいきます」
emoiwaの今後について渡邊氏は次のように語ります。「予測モデルの数を増やして幅広い用途で利用できるサービスに育てていきたい」最後に音声ソリューション全体について藤田氏は次のように話します。
「MDISの強みは、付加価値が高いデータ分析機能が提供できることです。それらがコンタクトセンターにおける後処理作業の時間削減、人手不足の解消、オペレーターの離職率低下などにつながり、ひいては年間で数千万円単位のコスト削減効果をもたらすことも可能です。今後もお客様のために、人を理解するAIモデルを幅広く展開し、データドリブン経営に貢献していきます」