「二項分布」の版間の差分
削除された内容 追加された内容
編集の要約なし |
|||
1行目:
{{確率分布
}}
[[数学]]において、'''二項分布'''(にこうぶんぷ、{{lang-en-short|binomial distribution}})は、結果が成功か失敗のいずれかである {{mvar|n}} 回の[[独立 (確率論)|独立]]な試行を行ったときの成功数で表される[[離散確率分布]]である。各試行における成功確率 {{mvar|p}} は一定であり、このような試行を[[ベルヌーイ試行]]と呼ぶ。二項分布に基づく[[統計的有意性]]の検定は、[[二項検定]]と呼ばれている。
== 例 ==
二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。
500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、運が悪ければ、とても少ない確率で、選んだ500人の中にたまたま一人たりとも患者が含まれないような、真の分布とかけ離れた分布が得られる場合もある。直
抽出された集団の中に含まれる罹患者数を[[確率変数]]
== 定義 ==
パラメータ
を満たすとき、確率変数
▲:<math>P[X=k]={n\choose k}p^k(1-p)^{n-k}\quad\mbox{for}\ k=0,1,2,\dots,n </math>
▲を満たすとき、確率変数''X''はパラメータ ''n''、''p'' の二項分布B(''n'', ''p'')に従うという。確率変数 X が二項分布 B(''n'', ''p'')に従うとき、''X'' ~ B(''n'', ''p'') と表記する。
ここで、
:<math>{n\choose k} = {}_n C_k =\frac{n!}{k!(n-k)!}</math>
は
この公式は、次のように解釈することができる。一回の試行において成功する確率が
▲は ''n'' 個から ''k'' 個を選ぶ組合せの数、すなわち[[二項係数]]を表す。二項分布という名前は、この二項係数に由来している。''n'' = 1 の場合を特に、[[ベルヌーイ分布]]と呼ぶ。
▲この公式は、次のように解釈することができる。一回の試行において成功する確率が''p''であるとき、''p''<sup>''k''</sup> の項は ''k'' 回成功する確率を表し、(1 − ''p'')<sup>''n'' − ''k''</sup>の項 は ''n'' − ''k'' 回失敗する確率を表している。ただし、''k'' 回の成功は ''n'' 回の試行の中のどこかで発生したものであるから、C(''n'', ''k'') 通りの発生順序がある。したがって、''n ''回の独立な試行を行ったときの成功回数が''k''となる確率を意味する。
==性質==▼
===期待値・分散===▼
B(''n'', ''p'')にしたがう確率変数''X'' に対し、''X'' の[[期待値]] ''E''[''X''] は▼
▲== 性質 ==
▲=== 期待値・分散 ===
▲{{math|B(''n'', ''p'')}} に
:<math>E[X]=np</math>
であり、[[分散 (確率論)|分散]] {{math|Var[''X'']}} は▼
▲であり、[[分散 (確率論)|分散]] Var[''X''] は
:<math>\operatorname{Var}(X)=np(1-p)</math>
となる。
=== 再生性 ===
二項分布は[[再生性]]を有する。すなわち
== 近似 ==
{{未検証|date=2018
二項分布の[[近似]]として、次の2種類の[[分布]]が知られている。
=== 正規分布 ===
[[
期待値
が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者[[アブラーム・ド・モアブル]]が1733年に著書 ''The Doctrine of Chances'' の中で紹介したのが最初であり、'''ド・モアブル=ラプラスの極限定理'''またはラプラスの定理と呼ぶことがある<ref>[[伏見康治]]「[[確率論及統計論]]」第IV章 独立偶然量の和 27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>。これは、今日でいうところの[[中心極限定理]]の特別な場合に相当する。この正規分布による近似を用いることにより、計算の労力を大きく削減することができる。▼
▲{{Indent|<math>P[X=k] \simeq \frac{1}{\sqrt{2 \pi np(1-p)}}\exp{ \left(- \frac{(k-np)^2}{2np(1-p)} \right)}</math>}}
▲が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者[[アブラーム・ド・モアブル]]が1733年に著書 ''The Doctrine of Chances'' の中で紹介したのが最初であり、'''ド・モアブル=ラプラスの極限定理'''またはラプラスの定理と呼ぶことがある<ref>[[伏見康治]]「[[確率論及統計論]]」第IV章 独立偶然量の和 27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>
例えば、多数の住民の中から ''n'' 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。''n'' 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 ''p'' とほぼ等しい[[平均]]を持ち、[[標準偏差]] σ = (''p''(1 − ''p'')/''n'')<sup>1/2</sup> である正規分布に近似される。未知の変数 ''p'' は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 ''n'' は多い方が好ましい。▼
95%[[信頼区間]]ならば、正規分布で近似すると、その範囲は、▼
{{Indent|<math>p-2\sqrt{\frac{p(1-p)}{n}} \sim p+2\sqrt{\frac{p(1-p)}{n}}</math>}}▼
となる。たとえば、p = 50%の場合、n = 100なら40%〜60%、n = 1,000ならば47%〜53%、n = 10,000ならば49%〜51%となる。n = 10の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる<ref>[http://wolfr.am/WLf2Jr prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 - Wolfram Alpha]</ref>。▼
===ポアソン分布===▼
''n'' が大きく ''p'' が十分小さい場合、''np'' は適度な大きさとなるため、パラメータ λ = ''np'' である[[ポアソン分布]]が 二項分布B(''n'', ''p'') の良好な近似を与える。すなわち、期待値λ = ''np''を一定とし、''n''を十分大きくしたとき、▼
▲例えば、多数の住民の中から
{{Indent|<math>P[X=k] \simeq \frac{\lambda^k e^{-\lambda}}{k!} </math>}}▼
▲となる。たとえば、{{math2|''p'' {{=}} 50}}% の場合、{{math2|''n'' {{=}} 100}} なら40%〜60%、{{math2|''n'' {{=}} 1,000}} ならば47%〜53%、{{math2|''n'' {{=}} 10,000}} ならば49%〜51%となる。{{math2|''n'' {{=}} 10}} の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる<ref>[http://wolfr.am/WLf2Jr prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 - Wolfram Alpha]</ref>。
▲=== ポアソン分布 ===
▲
が成り立つ(詳細は[[ポアソン分布]]の項を参照)。この結果は数学者[[シメオン・ドニ・ポアソン]]が1837年に著書 ''Recherches sur la probabilite des jugements (Researches on the Probabilities)'' の中で与えており、'''ポアソンの極限定理'''と呼ばれる。
== 関連項目 ==
*[[負の二項分布]]
*[[多項分布]]
|