強化学習 /
逆強化学習

きょうかがくしゅう /
ぎゃくきょうかがくしゅう

それは・・

【強化学習】目標に対して、最適行動を導き出す学習。

【逆強化学習】それとは「逆」に、お手本の行動から目標を推定。お手本よりも良い行動を導き出す学習。

1 強化学習を知ろう

さて、AI用語集の別の用語で、機械学習の一つである[教師あり学習]と[教師なし学習]をご紹介しています。
この[教師あり学習]も[教師なし学習]も、読み込ませるデータが明確で、状況や環境などに変化がない場面で行われる学習方法です。ただ、変化がある場面でも、一番よい結果を残せるように自分自身の行動を自らアップデートして、最適化していく機械学習もあります。それがこれからご紹介する[強化学習]なのです。

もう少し補足してみますね。
[強化学習]とは「目標に対して、最適行動を導き出す」機械学習です。具体的な例を挙げてみましょう。
例えば、ロボットが「歩く距離が最も長くなる行動を導き出したい」とします。ロボットは距離を長くするためにさまざまな工夫をします。歩幅を広げてみたり、適切なルートを模索したり。さまざまな失敗を繰り返しながら、より最適な行動をとるように動くこの行動をアップデートし強化していく学習こそが[強化学習]なのです。
自ら学習して進化する頭脳を持った囲碁AI「AlphaGo」が2017年、世界最強クラスのプロに勝ったのも、この[強化学習]によるものです。

「AlphaGo」に使われた、大量の囲碁の差し方の画像を読み込み、達人級の技の特徴を取り出して覚えていく強化学習は[深層強化学習]とも呼ばれていて、その中には、現在のAIの主流である[ディープラーニング(特徴表現学習)]技術も用いられています。

2 熟練者の行動を学習?!
逆強化学習

[強化学習]は「目標に対して、最適行動を導き出す」学習でした。
一般的な[強化学習]では「ロボットの歩く距離が伸びた」など、「目標」を設定して、最適な行動を習得していました。ただし、現実の世界では常に環境が変わっていくため、この「目標」の設定が難しい場合があるんですね。

たとえば「運転の技術」の観点では、急発進・急ブレーキをしないで、より混んでいない道を選ぶ「上手な運転」を覚えていれば、目的地により早く着くことができますよね。このように「熟練者の最適行動から、目標を求めて、さらに熟練よりも良い行動を突き詰めていく」、[強化学習]の「逆」の考え方を持つものは、[逆強化学習]と呼ばれ、今注目されています。

工場での例もあります。人間の“道をゆずる”などの動作を操作データとして収集させた無人の搬送車が、人間の運転するフォークリフトにぶつからないように、状況に応じて学習しながら自動的に停止し、道をゆずるようになるなど、高度な思考を持った行動ができるようにすることで、現場を効率化します。これは、高齢化で労働人口が不足していく未来の、人間とAIがより密接に共存できるようにしていくことでもありますね。

※本文中における会社名、商標名は、各社の商標または登録商標です。

POINT!

人とAIがいっしょに働く。
そんな世界が近づいているんだね。