最尤推定が解く基本的な問題は「パラメータ が不明な確率分布 に従う母集団から標本が得られたとき、データを良く説明する良い は何か」である。
ある母集団が確率分布関数 と母数 で表される離散確率分布 を従うとする。そこから 個の標本 を取り出すことを考えよう。すると分布関数から、観察されたデータ(標本)が得られる確率を次のように計算できる(離散分布はP=f):
このとき、母集団分布 の形(確率分布 )はわかっているが母数 は不明な場合、どうしたら を良く推定できるか?利用できる情報はこの母集団から得られた 個の標本 である。
最尤法では 、 を仮定したときに今回サンプリングされた標本が得られる確率に着目する。すなわち上記にある、母数 で条件付けられた確率Pに着目する。異なる ( と )を仮定して だった場合、これは何を意味するか? 例えばコイン振りの表確率 を と と仮定し、実際の標本が(表・表・表・表・裏)となって 、 ( )だった場合、これは何を意味するか?
直感的には「 の方がそれっぽい」と考えられる。すなわち2つの を仮定したとき、片方ではほぼあり得ない現象が起きたことになり、もう片方ではまぁありうる確率の現象が起きたと考えられるので、より が大きい方が尤もらしいと推定しているのである。もちろん奇跡的に稀な表が続いた( である)可能性もありうるが、より尤もらしいのはより起きやすい現象であろう、という論理が最尤推定の根底にある論理である(「起きやすい現象が起きた」と「起きづらい現象が起きた」なら前者と考えるのが合理的、という論理)。
このような論理に基づき、母数 の一番尤もらしい値を探す( のすべての可能な値の中から、観察された標本の尤度 を最大にするものを探す)方法が最尤推定である。これは他の推定量を求める方法と対照的である。たとえば の不偏推定量は、 を過大評価することも過小評価することもないが、必ずしも一番尤もらしい値を与えるとは限らない。
尤度関数を次のように定義する:
この関数を母数 のすべての可能な値から見て最大になるようにする。そのような値 を母数 に対する最尤推定量(さいゆうすいていりょう、maximum likelihood estimator、これもMLEと略す)という。最尤推定量は(適当な仮定の下では)しばしば尤度方程式(ゆうどほうていしき、likelihood equation)
-
の解として求められる。
- 尤度は を変数とし を定数とする関数である。
- 最尤推定量は唯一ではないこともあるし、存在しないことさえある。
- を離散確率分布関数でなく確率密度関数として考えれば、上の定義は連続確率分布にも当てはまる。
尤度の解釈編集
尤度 は条件付確率の定義から「 を仮定したときに今回サンプリングされた標本が得られる確率」である。「観測データから求まる、パラメータが である確率」では決してない。それは事後確率 である。
よって尤度最大の を求める最尤推定は「パラメータが である確率をデータから最大化する統計的推論手法」ではない。起きやすい現象が起きた場合が最も尤もらしいという考えに基づいて、尤度を最大化する を母集団の推定値とする手法が最尤推定である。
他手法との関係性編集
MAP推定編集
最尤推定は最大事後確率推定(MAP推定)の特殊例とみなせる。ベイズの定理より は常に成り立ちここで を一様分布と仮定すると、 となってこの最大値推定量はMLEと一致する(c.f. 計量経済学)。
離散分布で、母数が離散的かつ有限の場合編集
以下、コインを投げて表・裏(あるいは成功・失敗:その確率は0.5とは限らない)のいずれが出るかを見る場合(ベルヌーイ試行)を例にとる。
箱の中に3つのコインがあるとしよう。見た目では全く区別がつかないが、表の出る確率 が、それぞれ 、 、 である。( が、上で と書いた母数にあたる)。箱の中から適当に1つ選んだコインを80回投げ、 、 、 、 のようにサンプリングし、表(H)の観察された回数を数えたところ、表(H)が49回、裏が31回であった。さて、投げたコインがどのコインであったと考えるのが一番尤もらしいか? 一番尤もらしいコイン(すなわち、一番尤もらしい の値)を推定するためには、次のように尤度を計算する:
こうして母数 によって尤度が最大となることがわかり、これが に対する最尤推定量である。
離散分布で、母数が連続的な場合編集
こんどは上の例での箱に入っているコインの数は無限であると仮定する。それぞれがすべての可能な の値をとるとする。するとすべての可能な の値に対して次の尤度関数を最大化しなければならない:
この関数を最大化するには に関して微分しその値を0にすればよい:
これを解けば 、 、 の3つの解が得られるが、そのうち尤度を最大化するのは明らかに である( と では尤度は0になってしまう)。こうして に対する最尤推定量は と求められる。
この結果で、ベルヌーイ試行の成功数49を と置き、全回数80を と置けば一般化できる。 回のベルヌーイ試行で 回成功した場合に対する母数 の最尤推定量は
となる。
分布、母数とも連続的な場合編集
よく出てくる連続確率分布に、次の正規分布がある:
この分布に従う 個の独立なランダム変数標本の密度関数は:
また計算しやすいように書き換えると:
この分布には平均 と分散 の2つの母数がある。上では1つの母数に対する最大化だけを議論したが、この場合も各母数に対して尤度 を最大化すればよい。上の書き方なら とする(このように母数が複数の場合は母数ベクトルとして扱う)。
尤度を最大にするのは、尤度の自然対数を最大にするのと同じである(自然対数は単調増加関数であるから)。このような計算法はいろいろな分野でよく利用され、対数尤度は情報のエントロピーやフィッシャー情報と密接な関係がある。
これを解くと となる。これはまさに関数の最大値、すなわち の唯一の極値で、2次微分は負となる。
同様に、 に関して微分し0とおけば尤度の最大値 が得られる。
つまり、正規分布の母数 に対する最尤推定量は
となる。