シンプソンのパラドックス

シンプソンのパラドックス: Simpson's paradox)もしくはユール=シンプソン効果: Yule–Simpson effect)は1951年にイギリスの統計学者エドワード・H・シンプソン英語版によって記述された統計学的パラドックスである[1]母集団での相関と、母集団を分割した集団での相関は、異なっている場合があるという逆説。つまり集団を分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

母集団全体では負の相関があるにもかかわらず、各層では正の相関があるといった逆転現象が起こり得る。

統計学者にとっては1世紀以上前からこの現象は常識であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。

シンプソンのパラドックスの例 編集

A君とB君が1回目と2回目で合わせて110問を解くというテストを受けた。1回目のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。2回目のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらが優れているだろうか?

正解率と優劣の一覧表(優劣を不等号 <、> で表示)

A君 B君 優劣の判断
1回目 60/100 = 60% 9/10 = 90% A君 < B君
2回目 1/10 = 10% 30/100 = 30% A君 < B君
合計 61/110 = 55% 39/110 = 35% A君 > B君

上記の表から次のことが言える。

  • 1回目のテストでは、B君の方が正解率が高かった。
  • 2回目のテストでも、B君の方が正解率が高かった。
  • ところが2つのテストを合わせた合計(総得点)でみると、A君の方が正解率が高いという結果になった。

1回目でA君 < B君であり、2回目でもA君 < B君であれば、1回目と2回目を合わせてもA君 < B君に違いない、と思いこみがちである。しかし、実際にはA君 > B君となってしまう。この点で、この例は「シンプソンのパラドックス」の一例である。

もちろんこれはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効である。例えば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、A君の顧客110名とB君の顧客110名とは同一の顧客ではないのが普通であるから、上記のような単純な評価は難しくなる。

総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。

A君とB君は医師として、病院で治療を行っている。患者は中等症と重症の2群に対する治療で、各々110名の治療成績をテストした。B君は中等症、重症両方の群でA君より良い治療成績であったが、全体の治療成績は悪かった。その理由はB君の患者はほとんどが重症であり (100/110)、A君の患者は殆どが中等症 (100/110) であったためである。よってA君の治療成績が良かったという結論は論理的に誤っている。

上の話では、A君とB君の状況を先ほどのテストの話から何も改変していない。これらの問題は近年の文献でシンプソンのパラドックスとして議論された問題である。


シンプソン自身が提示した例 編集

シンプソン自身が提示した例では、関連性の逆転はみられない[1]

トランプの52枚のカードについて、絵札かどうか(ジャック、クイーン、キングのいずれかかどうか)と色(スペードとクラブなら黒、ハートとダイヤなら赤)との関連を考える。赤ちゃんがこのトランプで遊んでいたので、そのうち20枚ほどが汚れている。汚れたカードだけみても汚れていないカードだけみても、絵札以外の方が、赤いカードである可能性が高いことが分かった。では「絵札以外の方が、赤いカードである可能性が高い」と結論づけていいのか?カード全体を見渡して考えることで「分別のある解答」(sensible answer) が得られる。すなわち、そのような関係はない。

とある治療の有無と生存との関連を、男女別に検討する。出てくる数字はトランプの例と全く同じだ。男女別で調べると、治療した方が生存率が高いことが分かる。しかし、男女合わせたら治療の有無と生存との関連がなくなってしまう。「分別のある解釈」(sensible interpretation) はどうなるだろうか?この治療が無効とされることはまずないだろう。

この例に対し、Miguel Hernán英語版 は、Simpson 自身の記述の曖昧さを指摘しつつも、以下のような解釈を与えている[2]

トランプの例では、汚れの有無 (C) は絵札か否か (A) とカードの色 (B) の共通の結果、すなわち合流点である。

 

治療の例では、性別 (C) は治療の有無 (A) と生死 (B) の共通の原因、すなわち交絡因子である。

 

トランプの例では、合流点による選択バイアスを避けるためにカード全体を見渡すべきだし、治療の例では、交絡を避けるために性別で層別化して考えるべきだ。ただし、CがAと関係せずにBの原因となるとき、例えば無作為割付がなされた場合には、層別化する必要はない。因果関係の方向性に基づいて解析手法を検討するが、因果関係の方向についてはそのテーマに関する因果構造の知識が必要である。 トランプのカードが汚れたから(C)といって絵札になったり(A)赤のカードになったり(B)することはないし、治療したから(A)とか生存したから(B)といって男性になる(C)ようなことはない。

そして、次のように結論づけている[3]

  • 同じデータであっても異なる因果構造に起因するものであれば異なる解析が必要である。
  • 実りのある因果推論を行うためには、統計学だけではなく、主題に関する因果関係の知識が必要だ。

脚注 編集

出典 編集

  1. ^ a b Simpson, Edward H. (1951). “The Interpretation of Interaction in Contingency Tables.” (English). Journal of the Royal Statistical Society. Series B (Methodological) 13 (2): 238-241. JSTOR 2984065. http://math.bme.hu/~marib/bsmeur/simpson.pdf 2020年10月17日閲覧。. 
  2. ^ Hernán, Miguel A (31 March 2011). “The Simpson's paradox unraveled”. International Journal of Epidemiology 40 (3): 780-785. doi:10.1093/ije/dyr041. PMID 21454324. https://doi.org/10.1093/ije/dyr041 2020年10月17日閲覧。. 
  3. ^ Hernán, Miguel [@_MiguelHernan] (2017年5月5日). "I thought I understood Simpson's paradox until I read Simpson's paper. Turn out to be more interesting than expected". X(旧Twitter)より2021年8月12日閲覧

外部リンク 編集

関連項目 編集