「過剰適合」の版間の差分

削除された内容 追加された内容
汎化誤差の「推計統計学」への移動に伴う削除
Pxenviq (会話 | 投稿記録)
編集の要約なし
11行目:
[[機械学習]]の分野では過学習(overtraining)とも呼ばれる。過剰適合の概念は機械学習でも重要である。通常、学習[[アルゴリズム]]は一連の訓練データを使って訓練される。つまり、典型的な入力データとその際の既知の出力結果を与える。学習者はそれによって、訓練データでは示されなかった他の例についても正しい出力を返すことができるようになると期待される。しかし、学習期間が長すぎたり、訓練データが典型的なものでなかった場合、学習者は訓練データの特定のランダムな(本来学習させたい特徴とは無関係な)特徴にまで適合してしまう。このような過剰適合の過程では、訓練データについての性能は向上するが、それ以外のデータでは逆に結果が悪くなる。
 
== 正則化交差検証 ==
{{main|交差検証}}
統計学の場合も機械学習の場合も、追加の技法([[交差検証]]、{{仮リンク|早期打ち切り|en|Early stopping}}(early stopping))を用いることによって、過剰適合に陥らず、訓練がよりよい一般化となっていることを確認し、かつ示す必要がある。
 
== 過剰適合の回避方法 ==
{{see also|偏りと分散}}
=== 正則化 ===
{{main|正則化}}
機械学習や統計学において、媒介変数を減らすのではなく、誤差関数<!--数学用語の誤差関数とは異なる-->に正則化項を追加して、モデルの複雑度・自由度に抑制を加え、過学習を防ぐ方法がある。L2 正則化や L1 正則化などがある。
17 ⟶ 23行目:
[[サポートベクターマシン]]においては、媒介変数(パラメータ)を減らすのではなく、マージンを最大化することにより、過学習を防いでいて、これも、L2 正則化と同じような手法に基づいている。
 
===早期打ち切り===
== 交差検証 ==
{{仮リンク|早期打ち切り|en|Early stopping}}(early stopping)とは、学習の反復において、訓練データと評価データの両方の評価値を監視し、評価データでの評価値が悪化し始める所で学習を早期に打ち切る方法。
{{main|交差検証}}
統計学の場合も機械学習の場合も、追加の技法([[交差検証]]、{{仮リンク|早期打ち切り|en|Early stopping}}(early stopping))を用いることによって、過剰適合に陥らず、訓練がよりよい一般化となっていることを確認し、かつ示す必要がある。
 
== 参考文献 ==