このページの本文へ

ここから本文


02

強化学習

スピーディーな学習で、
短期間にAI導入が可能。

強化学習とは

強化学習はAIの機械学習の一種です。コンピューターは人の作成したプログラムにそって行動します。しかし強化学習は現在の状況をコンピューター自身で理解し、自らルールを決め、取るべき行動を決定します。人がプログラムによってルールを決める必要がないのです。
次にどう行動するかを決めるためには、人と同じように、失敗を含めたくさんの経験が必要になります。
例えばネジを締めるなど、ロボットにある動作を学習させる場合、何度もその行動を試行することで学習していきます。

強化学習では試行を繰り返し、その達成具合に対して評価(報酬)が与えられ、コンピューターはより高い評価を得るために、行動を修正することで徐々に目標とする状態へと近づいていきます。強化学習は習うより慣れることで学習するAI、失敗の中から成功をつかみ取るAIと言えます。

三菱電機の強み

成功度合いを推定し、
事前学習の試行回数を削減。

強化学習は人がプログラムによってルールを作る手間が必要ない反面、事前学習のために膨大な試行数を必要として、学習に時間がかかります。

三菱電機では試行数を従来に比べ約1/50に削減する独自の技術を開発しました。従来の強化学習は試行結果をセンシングし、その評価に基づき、制御パラメーターを決定していました。当社ではそれらに加え、AIを組み込む機器の知見を活かして試行結果の成功度合いを推定し、どう動けばより早く目標とする状態に近づけるかをAIにフィードバックし、制御パラメーターを決定します。これにより少ない試行回数で学習でき、AI導入にかかる期間・コストを大幅に削減することが可能になります。

当社強化学習の機能ブロック図
試行数比較