「シンプソンのパラドックス」の版間の差分

m
{{出典の明記}}
m ({{出典の明記}})
{{出典の明記|date=2012年10月23日 (火) 00:49 (UTC)}}
'''シンプソンのパラドックス'''は[[1951年]]にE.H.シンプソンによって記述された[[統計学|統計学的]]な[[パラドックス]]である。
'''シンプソンのパラドックス'''は[[1951年]]に{{仮リンク|E. H. シンプソン|en|Edward H. Simpson}}によって記述された[[統計学|統計学的]]な[[パラドックス]]である。[[母集団]]での[[相関]]と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある[[仮説]]が成立しても、集団全体では正反対の仮説が成立することがある。
 
統計学者にとっては1世紀以上前からこの現象は既知であったが、[[哲学]]者、[[コンピュータ]]を扱う科学者、[[疫学]]者、[[経済学]]者らは最近でもこのパラドックスに対する議論を行っている。
[[母集団]]での[[相関]]と、母集団を分割した集団での相関は、異なっている場合がある。
 
つまり集団を2つに分けた場合にある[[仮説]]が成立しても、集団全体では正反対の仮説が成立することがある。
 
== シンプソンのパラドックスの例 ==
例:AA君とB君が1回目と2回目で合わせて110問を解くという[[試験|テスト]]を受けた。最初のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。次のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらの正答率が上なのだろうか?
 
例:A君とB君が1回目と2回目で合わせて110問を解くという[[試験|テスト]]を受けた。最初のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。次のテストでは、A君は10問中1問、B君は100問中30問が正解だった。
 
この例について考えてみる。話を整理するためにいくつかの記号を導入する。
 
* 最初のテストでは、A君は解答した問題の60%(''S''<sub>A</sub>(1) = 60%)、B君は90%(= ''S''<sub>B</sub>(1) = 90%)が正解であった。つまりB君の方が正解率が高かった。
 
* 同様に、次のテストでは、A君は10%(''S''<sub>A</sub>(2) = 10%)、B君は30%(= ''S''<sub>B</sub>(2) = 30%)の正解率であった。どちらのテストもB君の方が正解率が高かった。
 
* しかし、2つのテストを合わせてみると、A君とB君は2人とも110の問題を解いていて、そのうちA君は61問(''S''<sub>A</sub> = 61/110)、B君は39問(''S''<sub>B</sub> = 39/110)が正解であった。
しかし、各々の総得点を計算する際に異なった加重を与えてみるとどうなるだろうか。A君の最初のテストの加重は100/110でありB君では10/110である。2回目のテストの加重は各々、A君 10/110、B君 100/110となる。
 
:''S''<sub>A</sub> = 100/110 ''S''<sub>A</sub>(1) + 10/110 ''S''<sub>A</sub>(2).
 
:''S''<sub>B</sub> = 10/110 ''S''<sub>B</sub>(1) + 100/110 ''S''<sub>B</sub>(2).
 
加重を与えることによってAの総得点率は約60%、Bの総得点率は約30%と計算できる。このように、計算方法によりパラドックスを見抜くことが出来る。
 
加重を与えることによってAの総得点率は''S''<sub>A</sub> = 61/110 = 60%55%、Bの総得点率は''S''<sub>B</sub> = 39/110 = 30%35%と計算できる。このように、計算方法によりパラドックスを見抜くことが出来る。
 
しかし、これはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効で、たとえば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、依然として個人の成績と全体の成績の間には[[矛盾]]が残る。
 
A君とB君のどちらが上なのだろうか?
 
総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。
上の話では、A君とB君の状況を先ほどのテストの話から何も改変していない。これらの問題は近年の文献でシンプソンのパラドックスとして議論された問題である。
 
[[Category{{デフォルトソート:数学に関する記事|しんふそんのはらとつくす]]}}
統計学者にとっては1世紀以上前からこの現象は既知であったが、[[哲学]]者、[[コンピュータ]]を扱う科学者、[[疫学]]者、[[経済学]]者らは最近でもこのパラドックスに対する議論を行っている。
[[Category:統計学]]
 
[[Category:統計学|しんふそんのはらとつくすパラドックス]]
[[Category:パラドックス|しんふそんのはらとつく数学に関る記事]]
[[Category:数学に関する記事|しんふそんのはらとつくす]]
 
[[de:Simpson-Paradoxon]]