過学習

それは・・

「学習」しすぎた結果、本来の予測がうまくできなくなった状態。

1 詰め込みすぎて使えない?
過学習の落とし穴

「食べ過ぎ」「飲み過ぎ」…なんでも「過ぎる」とよくないですよね。AIの分野においても、その「偏り」がよくないことがあるんです。

「過学習」とは、「過剰適合」や「オーバフィッティング」とも呼ばれている現象で、学習データにだけ適応した学習ばかりが過剰に進んでしまい、AIの、未知のデータに対して推定する性能が下がってしまうことを指します。少し難しいですね。そこにはAI特有の「学習」と「予測」の関係性があります。

AIでいう「学習」は、「機械学習」という、大量のデータを取り込んで学び、そのルールやパターンを自分で発見し、進化する作業です。この学習に偏りが生じると、発見されるルールやパターンにも偏りが生まれ、そこから導き出される未来の推定結果としての「予測」が的外れのものとなってしまいます。このことが、AIを扱ううえで大きな課題で、人の手による対策が必要なことでした。

2 どうしたら「過学習」は
回避できるの?

では、どうすれば「過学習」は避けられるのでしょうか?

例えば、大量の人物画像データを学習させ、AIが特定の人を検知する「人物検知」において、学習させる人物画像が一定の照度(明るさ)で撮影されたものだと、その照度自体も「人物の特徴」として学習してしまうことがあります。そうなると、他の照度で撮影された人物が検知できなくなってしまうんですね。この対策としては、いろいろな照度で撮影された画像を用意したり、画像加工によってさまざまな照度に変換し学習データを増やしたりすることを意図的に行います。

その他にも、「正則化」という方法もあります。正則化とは、特徴やルールを発見する際に、複雑さが増すことに対するペナルティ(不要なものを削除したり、滑らかな特徴・ルールにしたりすること)を設け、誤差を踏まえた学習モデルを求める手法です。足にギブスをつけて、歩き方をシンプルにさせることにも近いかもしれないですね。

また比較的少ない学習データ量の場合は「交差検証」という方法もあります。学習データを分割して、その一部をまずは学習させ、導き出される予測結果を検証し、踏まえながら残りのデータも学習させる手法ですね。

いずれにしてもAIに任せきり、というよりは、人の手で対策や修正をしながら、より偏りの少ない学習と予測を求めていくことが必要なんですね。

POINT!

偏り過ぎは
AIもお腹一杯で混乱するから
食べ方注意、なんだね。