「マン・ホイットニーのU検定」の版間の差分

m
編集の要約なし
m
'''マン'''(Mann)'''・ホイットニー'''(Whitney)'''のU検定'''(-マン・ホイットニーのユーけんてい、{{lang-en-short|Mann–Whitney ''U'' test}})は[[ノンパラメトリック手法|ノンパラメトリック]]な[[仮説検定|統計学的検定]]の一つあり、特に特定の母集団がう一方く知られるのの一大きな値を持傾向にある時に、2つの母集団が同じであるとする[[帰無仮説]]に基づいて検定する。また'''ウィルコクソン'''(Wilcoxon)'''の順位和検定'''と呼ばれるのも実質的に同じ方法であり、まとめて'''マン・ホイットニー・ウィルコクソン検定'''とも呼ばれる。
 
マン・ホイットニーのU検定は、[[正規分布]]の[[混合分布|混合]]といった非正規分布については[[t検定]]よりも[[有効性]]が高く、正規分布についてもt検定に近い有効性を示す。
[[独立性|独立]]な2組の[[標本 (統計学)|標本]]の有意差検定として用いられ、変数は順位としてとれば(つまり二つを比較してどちらが大きいかが分かっていれば)よい。二つの観察された分布の間の重なりの度合が偶然で期待されるよりも小さいかどうかを、「両標本が同じ母集団から抽出された」との[[帰無仮説]]に基づいて検定する方法である。
 
== 解説 ==
''U'' (帰無仮説の下ではその分布が分かっている)と呼ばれる統計量を求める。標本サイズが小さい場合にはこの分布は[[数表]]になっているが、約20以上の場合には[[正規分布]]でよい近似ができる。''U'' でなく一方の標本について順位和を用いるような方法もあるが、特によい方法ではない。
[[独立性|独立]]な2組の[[標本 (統計学)|標本]]の有意差検定として用いられ、変数は順位としてとれば(つまり2つを比較してどちらが大きいかが分かっていれば)よい。二つの観察された分布の間の重なりの度合が偶然で期待されるよりも小さいかどうかを、「両標本が同じ母集団から抽出された」との[[帰無仮説]]に基づいて検定する方法である。
 
''U'' (帰無仮説の下ではその分布が分かっている)と呼ばれる[[検定統計量|統計量]]を求める。標本サイズが小さい場合にはこの分布は[[数表]]になっているが、約20以上の場合には[[正規分布]]でよい[[近似]]ができる。''U'' でなく一方の標本について順位和を用いるような方法もあるが、特によい方法ではない。
 
統計パッケージにもたいてい入っているが、特に小標本の場合には手計算でもできる。方法には以下の二つがある:
*小標本に対しては、直接計算する方法がよい。簡単にできて統計量''U'' の意味が理解しやすい。観察度数あるいは標本サイズが小さい方の標本を選んで、これを標本1、もう一方を標本2とする。標本1の各観察について、標本2の中でそれよりも小さい値が得られた観察の度数を数える。これらの度数をすべて総和したものが''U'' である。
*大標本に対しては、公式を用いる。すべての観察を並べて一つの順位系列とし、小さい方の標本の順位を総和する。すべての順位の和は''N''(''N'' + 1)/2 (ここで ''N'' は全観察数)に等しいから、''U'' は次のように求められる:
::<math>U_1=n_1 n_2 +{n_1(n_1+1) \over 2}-R_1</math>
::<math>U_2=n_1 n_2 +{n_2(n_2+1) \over 2}-R_2</math>
この2つのUのうち、低い値の方を検定に用いる。
ここで ''n''<sub>1</sub> ''n''<sub>2</sub> は2組の標本の大きさで、 ''R''<sub>1</sub> は標本1.</p>の順位の和である。
 
''U'' の最大値は2標本の大きさの積で、上記の方法で得られた値がこの最大値の半分より大きい場合は、それを最大値から引いた値を数表で見つけ出せばよい。
 
==例==
例えば、イソップが「カメがウサギに競走で勝った」というあの[[ウサギとカメ|有名な実験結果]]に疑問を持っているとしよう。彼はあの結果が一般のカメ、一般のウサギにも拡張できるかどうか明らかにするために有意差検定を行うことにする。6匹のカメと6匹のウサギを標本として競走させた。動物たちがゴールに到達した順番は次の通りである(Tはカメ、Hはウサギを表す):
 
mU = n<Sub>1</Sub>n<Sub>2</Sub> / 2
 
----
U 検定は独立な標本に対する[[スチューデントのt検定]]と同様の状況で用いられ、どちらを用いるのがよいかが問題になる。[[コンピュータ]]が簡単に使えなかった頃は計算の手間がかからないことから一般にU検定が推奨された。現在でも順序データ(初めから順位として表現されているデータ)を用いる場合にはU検定が推奨される。また少数の[[外れ値]]のために偽の有意な結果が出ることは、t検定に比べるとはるかに少ない。
 
一方、U検定を2標本の分布が大きく異なる場合に用いるのは誤りである。U検定は2標本が共通の分布に基づくかどうかを検定するものであって、平均は同じだが分散は異なるような分布に基づく場合には偽の有意な結果が出ることもある([[モンテカルロ法]]を用いて示されている)。
*[[ウィルコクソンの符号順位検定]]
 
[[Category{{DEFAULTSORT:統計検定|まんほいつとにのU]]}}
[[Category:統計検定]]
[[Category:数学に関する記事|まんほいつとにいのゆうけんてい]]