2019年1月2日 (水) 09:19時点における版編集 114.182.87.246 (会話) →‎参照 ← 古い編集		2019年1月3日 (木) 05:23時点における版編集取り消し 114.182.87.246 (会話) 編集の要約なし新しい編集 →
1行目: {{確率分布\| \|名前 = 二項分布\| \|型 = =質量\| \|画像/確率関数 = [[画像:Binomial distribution pmf.svg\|300px]]\| \|画像/分布関数 = [[画像:Binomial distribution cdf.svg\|300px]]<br />色は上図と同じ\| \|母数 = <math>n \geq 0</math> 試行回数(（整数)）<br /><math>0 \leq p \leq 1</math> 成功確率(（実数)\|） \|台 = =<math>k \in \{0,\dots,n\}\!</math>\| \|確率関数 = <math>{n\choose k} p^k (1-p)^{n-k} \!</math>\| \|分布関数 = <math>I_{1-p} (n-\lfloor k\rfloor, 1+\lfloor k\rfloor) \!</math>\| \|期待値 = =<math>n\,p\!</math>\| \|中央値 =\| \|最頻値 = =<math>\lfloor (n+1)\,p\rfloor\!</math>\| \|分散 = =<math>n\,p\,(1-p)\!</math>\| \|歪度 = =<math>\frac{1-2\,p}{\sqrt{n\,p\,(1-p)}}\!</math>\| \|尖度 = =<math>\frac{1-6\,p\,(1-p)}{n\,p\,(1-p)}\!</math>\| \|エントロピー =\| \|モーメント母関数 = <math>(1-p + p\,e^t)^n \!</math>\| \|特性関数 = <math>(1-p + p\,e^{i\,t})^n \!</math>\| }} [[数学]]において、'''二項分布'''（にこうぶんぷ、{{lang-en-short\|binomial distribution}}）は、結果が成功か失敗のいずれかである {{mvar\|n}} 回の[[独立 (確率論)\|独立]]な試行を行ったときの成功数で表される[[離散確率分布]]である。各試行における成功確率 {{mvar\|p}} は一定であり、このような試行を[[ベルヌーイ試行]]と呼ぶ。二項分布に基づく[[統計的有意性]]の検定は、[[二項検定]]と呼ばれている。 == 例 == 二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。 500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、運が悪ければ、とても少ない確率で、選んだ500人の中にたまたま一人たりとも患者が含まれないような、真の分布とかけ離れた分布が得られる場合もある。直感観的には、真の分布に近い分布が得られる確率 > 真の分布から遠い分布が得られる確率だろう。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。これを定量的に表すことの出来できる分布が二項分布である。抽出された集団の中に含まれる罹患者数を[[確率変数]] ''{{mvar\|X''}} で表すとき、''{{mvar\|X''}} は {{math2\|''n'' {{=}} 500、, ''p'' {{=}} 0.05}} の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は {{math\|Pr[''X'' ~~≥~~≥ 30]}} である。 == 定義 == パラメータ'' {{mvar\|p''}}（ただし~~<math>~~ {{math2\|0~~\leq~~ ≤ ''p'' ~~\leq~~≤ 1~~</math>~~}}）ならびに自然数のパラメータ'' {{mvar\|n''}} に対して、自然数を値としてとる確率変数'' {{mvar\|X''}} が :<math>P[X=k]={n\choose k}p^k(1-p)^{n-k}\quad\mbox{for}\ k=0,1,2,\dots,n </math>▼ を満たすとき、確率変数'' {{mvar\|X''}} はパラメータ {{math2\|''n''、, ''p''}} の二項分布 {{math\|B(''n'', ''p'')}} に従うという。確率変数 {{mvar\|X}} が二項分布 {{math\|B(''n'', ''p'')}} に従うとき、{{math2\|''X'' ~ B(''n'', ''p'')}} と表記する。▼ ▲:<math>P[X=k]={n\choose k}p^k(1-p)^{n-k}\quad\mbox{for}\ k=0,1,2,\dots,n </math> ▲を満たすとき、確率変数''X''はパラメータ ''n''、''p'' の二項分布B(''n'', ''p'')に従うという。確率変数 X が二項分布 B(''n'', ''p'')に従うとき、''X'' ~ B(''n'', ''p'') と表記する。ここで、 :<math>{n\choose k} = {}_n C_k =\frac{n!}{k!(n-k)!}</math> は ''{{mvar\|n''}} 個から ''{{mvar\|k''}} 個を選ぶ組合せの数、すなわち[[二項係数]]を表す。二項分布という名前は、この二項係数に由来している。{{math2\|''n'' {{=}} 1}} の場合を特に、[[ベルヌーイ分布]]と呼ぶ。▼ この公式は、次のように解釈することができる。一回の試行において成功する確率が'' {{mvar\|p''}} であるとき、''{{mvar\|p~~''<~~{{sup~~>''~~\|k~~''</sup>~~}}}} の項は ''{{mvar\|k''}} 回成功する確率を表し、{{math\|(1 − ''p'')<{{sup>\|''n'' − ''k''~~</sup>~~}}}} の項は {{math\|''n'' − ''k''}} 回失敗する確率を表している。ただし、''{{mvar\|k''}} 回の成功は ''{{mvar\|n''}} 回の試行の中のどこかで発生したものであるから、{{math\|C(''n'', ''k'')}} 通りの発生順序がある。したがって、''{{mvar\|n}} ''回の独立な試行を行ったときの成功回数が'' {{mvar\|k''}} となる確率を意味する。▼ ▲は ''n'' 個から ''k'' 個を選ぶ組合せの数、すなわち[[二項係数]]を表す。二項分布という名前は、この二項係数に由来している。''n'' = 1 の場合を特に、[[ベルヌーイ分布]]と呼ぶ。 ▲この公式は、次のように解釈することができる。一回の試行において成功する確率が''p''であるとき、''p''<sup>''k''</sup> の項は ''k'' 回成功する確率を表し、(1 − ''p'')<sup>''n'' − ''k''</sup>の項は ''n'' − ''k'' 回失敗する確率を表している。ただし、''k'' 回の成功は ''n'' 回の試行の中のどこかで発生したものであるから、C(''n'', ''k'') 通りの発生順序がある。したがって、''n ''回の独立な試行を行ったときの成功回数が''k''となる確率を意味する。 ==性質==▼ ===期待値・分散===▼ B(''n'', ''p'')にしたがう確率変数''X'' に対し、''X'' の[[期待値]] ''E''[''X''] は▼ ▲== 性質 == ▲=== 期待値・分散 === ▲{{math\|B(''n'', ''p'')}} に~~したが~~従う確率変数'' {{mvar\|X''}} に対し、''{{mvar\|X''}} の[[期待値]] {{math\|''E''[''X'']}} は :<math>E[X]=np</math> であり、[[分散 (確率論)\|分散]] {{math\|Var[''X'']}} は▼ ▲であり、[[分散 (確率論)\|分散]] Var[''X''] は :<math>\operatorname{Var}(X)=np(1-p)</math> となる。 ''{{mvar\|X''}} の[[最頻値]]は、{{math\|(''n'' + 1)''p''}} 以下の最大の[[整数]]によって与えられる。ただし、{{math2\|''m'' {{=}} (''n'' + 1)''p''}} において ''{{mvar\|m''}} が整数である場合、{{math\|''m'' − 1}} と ''{{mvar\|m''}} の双方が最頻値となる。 === 再生性 === 二項分布は[[再生性]]を有する。すなわち {{math\|B(''n'', ''p'')}} に従う確率変数 ''{{mvar\|X''}} と {{math\|B(''m'', ''p'')}} に従う確率変数 ''{{mvar\|Y''}} が互いに独立であるとき、確率変数の和 {{math\|''X'' + ''Y''}} は二項分布 {{math\|B(''n'' + ''m'', ''p'')}} に従う。 == 近似 == {{未検証\|date=2018年-12月\|section=1}} 二項分布の[[近似]]として、次の2種類の[[分布]]が知られている。 === 正規分布 === [[~~File~~画像:De moivre-laplace.gif~~\|thumb~~\|300px\|thumb\|二項分布が正規分布に近づく様子]] 期待値 ''{{mvar\|np''}} および分散 {{math\|''np''(1 − ''p'')}} が {{math\|5}} よりも大きい場合、二項分布 {{math\|B(''n'', ''p'')}} に対する良好な近似として[[正規分布]]がある。但ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、''{{mvar\|n''}} が十分大きくかつ、期待値 ''{{mvar\|np''}} および分散 {{math\|''np''(1 − ''p'')}} も十分大きい場合、期待値 ''{{mvar\|np''}}, 分散 {{math\|''np''(1 − ''p'')}} の正規分布 {{math\|N(''np'', ''np''(1 − ''p''))}} で近似することができ、期待値からの差 {{math\|{{!}}''k'' −− ''np''\|{{!}}}} が[[標準偏差]] ({{math\|{{sqrt\|''np''(1 − ''p'')~~)<sup>1/2</sup>~~}}}} と同程度となる ''{{mvar\|k''}} に対して ~~{{Indent\|~~:<math>P[X=k] \simeq \frac{1}{\sqrt{2 \pi np(1-p)}}\exp{ \left(- \frac{(k-np)^2}{2np(1-p)} \right)}</math>}}▼ が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者[[アブラーム・ド・モアブル]]が1733年に著書 ''The Doctrine of Chances'' の中で紹介したのが最初であり、'''ド・モアブル=ラプラスの極限定理'''またはラプラスの定理と呼ぶことがある<ref>[[伏見康治]]「[[確率論及統計論]]」第IV章　独立偶然量の和　27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>。これは、今日でいうところの[[中心極限定理]]の特別な場合に相当する。この正規分布による近似を用いることにより、計算の労力を大きく削減することができる。▼ ▲{{Indent\|<math>P[X=k] \simeq \frac{1}{\sqrt{2 \pi np(1-p)}}\exp{ \left(- \frac{(k-np)^2}{2np(1-p)} \right)}</math>}} ▲が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者[[アブラーム・ド・モアブル]]が1733年に著書 ''The Doctrine of Chances'' の中で紹介したのが最初であり、'''ド・モアブル=ラプラスの極限定理'''またはラプラスの定理と呼ぶことがある<ref>[[伏見康治]]「[[確率論及統計論]]」第IV章　独立偶然量の和　27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref> 。これは、今日でいうところの[[中心極限定理]]の特別な場合に相当する。この正規分布による近似を用いることにより、計算の労力を大きく削減することができる。例えば、多数の住民の中から ''n'' 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。''n'' 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 ''p'' とほぼ等しい[[平均]]を持ち、[[標準偏差]] σ = (''p''(1 − ''p'')/''n'')<sup>1/2</sup> である正規分布に近似される。未知の変数 ''p'' は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 ''n'' は多い方が好ましい。▼ 95%[[信頼区間]]ならば、正規分布で近似すると、その範囲は、▼ {{Indent\|<math>p-2\sqrt{\frac{p(1-p)}{n}} \sim p+2\sqrt{\frac{p(1-p)}{n}}</math>}}▼ となる。たとえば、p = 50%の場合、n = 100なら40%〜60%、n = 1,000ならば47%〜53%、n = 10,000ならば49%〜51%となる。n = 10の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる<ref>[http://wolfr.am/WLf2Jr prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 - Wolfram Alpha]</ref>。▼ ===ポアソン分布===▼ ''n'' が大きく ''p'' が十分小さい場合、''np'' は適度な大きさとなるため、パラメータ λ = ''np'' である[[ポアソン分布]]が二項分布B(''n'', ''p'') の良好な近似を与える。すなわち、期待値λ = ''np''を一定とし、''n''を十分大きくしたとき、▼ ▲例えば、多数の住民の中から ''{{mvar\|n''}} 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。''{{mvar\|n''}} 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 ''{{mvar\|p''}} とほぼ等しい[[平均]]を持ち、[[標準偏差]] ~~σ~~{{math2\|''σ'' {{=}} ({{sqrt\|''p''(1 − ''p'')/''n''~~)<sup>1/2</sup>~~}}}} である正規分布に近似される。未知の変数 ''{{mvar\|p''}} は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 ''{{mvar\|n''}} は多い方が好ましい。 {{Indent\|<math>P[X=k] \simeq \frac{\lambda^k e^{-\lambda}}{k!} </math>}}▼ ▲95%[[信頼区間]]ならば、正規分布で近似すると、その範囲は、 ▲~~{{Indent\|~~:<math>p-2\sqrt{\frac{p(1-p)}{n}} \sim p+2\sqrt{\frac{p(1-p)}{n}}</math>}} ▲となる。たとえば、{{math2\|''p'' {{=}} 50}}% の場合、{{math2\|''n'' {{=}} 100}} なら40%〜60%、{{math2\|''n'' {{=}} 1,000}} ならば47%〜53%、{{math2\|''n'' {{=}} 10,000}} ならば49%〜51%となる。{{math2\|''n'' {{=}} 10}} の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる<ref>[http://wolfr.am/WLf2Jr prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 - Wolfram Alpha]</ref>。 ▲=== ポアソン分布 === ▲''{{mvar\|n''}} が大きく ''{{mvar\|p''}} が十分小さい場合、''{{mvar\|np''}} は適度な大きさとなるため、パラメータ ~~λ~~{{math2\|''λ'' {{=}} ''np''}} である[[ポアソン分布]]が二項分布 {{math\|B(''n'', ''p'')}} の良好な近似を与える。すなわち、期待値~~λ~~ {{math2\|''λ'' {{=}} ''np''}} を一定とし、''{{mvar\|n''}} を十分大きくしたとき、 ▲~~{{Indent\|~~:<math>P[X=k] \simeq \frac{\lambda^k e^{-\lambda}}{k!} </math>}} が成り立つ（詳細は[[ポアソン分布]]の項を参照）。この結果は数学者[[シメオン・ドニ・ポアソン]]が1837年に著書 ''Recherches sur la probabilite des jugements (Researches on the Probabilities)'' の中で与えており、'''ポアソンの極限定理'''と呼ばれる。 == 関連項目 == [[負の二項分布]] [[多項分布]]

「二項分布」の版間の差分