確率分布
確率分布(かくりつぶんぷ、英: probability distribution)は、確率変数に対して、各々の値をとる確率を表したものである。日本工業規格では、「確率変数がある値となる確率,又はある集合に属する確率を与える関数」と定義している[1]。
目次
概要編集
例えば、「サイコロ2個を振ったときの出た目の和」は確率変数である。この確率変数 X に対する分布は次の表のようになる。
X | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|
P(X) | 136 | 236 | 336 | 436 | 536 | 636 | 536 | 436 | 336 | 236 | 136 |
すなわち、確率分布とは確率変数の値にその確率(確率質量)を対応させる関数(確率質量関数)のことであると言うこともできる。確率変数が離散型である場合は、試行を数値化したものは結局確率関数であると理解される。しかし、例えば「次に電話がなるまでの時間」といった、連続型確率変数の場合は、確率変数値での確率が全て 0 となり、確率分布を確率質量関数で表すことができない。
「次に電話がなるまでの時間」は確率変数である。この確率変数 X の分布が次のようになったとする。
X | 1時間以内 | 1 - 2時間後 | 2 - 3時間後 | 3 - 4時間後 | 4時間以上先 |
---|---|---|---|---|---|
P(X) | 12 | 14 | 18 | 116 | 116 |
この場合の確率を全て表すには、全ての連続区間での確率を求めることになる。次の電話が a - b 時間後になる確率は次の式で表せる:
分布関数(ぶんぷかんすう、cumulative distribution function, CDF)FX を
で定めれば、
のように、一変数関数で分布を表現できるので便利である。さらに、FX の導関数 fX は確率密度関数(frequency function または probability density function (PDF)) と呼ばれ、確率は積分を用いて
と書ける。
通常、連続値をとる確率変数の分布は確率密度関数を用いて記述される。なぜなら、確率密度関数は初等関数で書けるが、累積分布関数は書けない場合が多いからである。
公理主義的な確率論においては、d次元ベクトル値確率変数の確率分布とは、その確率変数の引き起こす像測度のことである。この測度は d次元ユークリッド空間上の確率測度であり、ユークリッド空間の部分集合に対して、確率変数の値がその集合に入る確率を与える関数となる。
単に確率分布というときは、d次元ユークリッド空間などのよく使われる可測空間上で定義された確率測度のことをいう。ただの確率測度と違って空間に散らばっている様子がグラフなどの目に見える形で表現できるので「分布」と呼ばれる。
確率論で、確率変数の分布を考えるのは、その変数だけを確率論的な議論の対象にしたい場合である。例えば、確率変数がある値を取る確率や、期待値、分散といった量は変数の分布が分かれば計算できる量である。 逆に分布を考えることによって隠れた変数 ω と確率変数との対応関係は失われてしまい、他の確率変数との関連性も不明になる。例えば、確率変数 X と Y の分布がそれぞれ PX と PY のように与えられたとしても、2つの変数の関連性は分からないので、X + Y がある値を取る確率や、積 XY の期待値、X + Y の分散といった量は計算できない。このような量を計算したいときは、X と Y の結合分布が必要となる。
よく使われる確率分布にはそれぞれ名前がついており性質がよく研究されている。このような分布をもつ確率変数に対して研究の結果を利用することができる。例えば、確率変数の分布が平均 0、分散 1 の正規分布だった場合、その変数が 2 以上の値を取る確率は数表から 2.28% である。
定義編集
確率分布編集
なお、 は 上のボレル集合族(集合演算で閉じた部分集合族の一種)である。
確率変数の確率分布編集
実数値確率変数 X の確率分布 を
で定義する。PX は確率測度(像測度)である。
同様に 値確率変数 X の確率分布 は
で定義される確率測度である。
確率変数 X の確率分布が μ であるとき、X は μ に従う確率変数であるという。例えば、「X は平均 0、分散 1 の正規分布に従う」のように使い、これを記号で
のように書く。
分布関数編集
実数値確率変数 X の分布関数(ぶんぷかんすう、distribution function)あるいは、一次元確率分布 PX の分布関数とは
で与えられる関数 FX のことである。累積分布関数 (るいせきぶんぷかんすう、cumulative distribution function) ともいう。
分布関数は定義より右連続であるが、左連続とは限らない。分布関数が連続である(左連続でもある)確率分布を連続確率分布という。分布関数がとる値が高々可算個である確率分布を離散確率分布という。
確率密度関数編集
確率分布 PX が絶対連続ならば、ある可測関数 f : X → [0, ∞) が存在して、確率分布は
と表される(ラドン=ニコディムの定理)。fX は PX のラドン=ニコディム微分であり、零集合を除いて一意である。fX を連続型確率変数 X の確率密度関数(frequency function または probability density function (PDF))という。
確率分布 PX が絶対連続であるとは、任意の(ルベーグ測度に関しての)零集合 N に対して、
が成り立つことと定義される。これは測度の絶対連続性と同じである。このとき連続確率分布である。
とくに A が区間の場合は
となる。区間の端点は入れても入れなくても確率は同じである。
確率質量関数編集
離散確率分布のときに確率密度関数に対応する関数として確率質量関数(かくりつしつりょうかんすう、probability mass function)(単に確率関数(かくりつかんすう、probability functionまたはprobability mass function、random function、stochastic function)ともいう)がある。確率変数 X のとる値の集合が S = {x1, x2, …} だとすると確率質量関数は
で定まる関数 fX のことである。
多次元分布関数編集
2つ以上の変数の確率分布関数を、多次元分布関数と呼ぶ。また、2つ以上の変数の組の確率分布のことを同時分布、同時確率分布 (joint probability distribution) という[2]。
二次元分布関数編集
二変数の確率分布関数を、二次元分布関数と呼ぶ[2]。
同時分布と周辺分布編集
複数の確率変数の挙動を多次元の確率分布で表したものを同時分布という。同時分布から各変数の分布だけを取り出したものを周辺分布(しゅうへんぶんぷ、marginal distribution)と呼ぶ。日本工業規格では、周辺(確率)分布(しゅうへん(かくりつ)ぶんぷ、marginal probability distribution)を、「k次元確率変数の部分集合である k1変数の同時分布」と定義している[3]。
代表的な確率分布編集
代表的な確率分布は離散型または絶対連続型のもののみを挙げる。他には離散でも連続でもないもの、連続であるが絶対連続ではないものなどが考えられるが通常現れる分布ではない。
離散型編集
サイコロを投げた時に出る目の数字など、確率変数が離散的な値をとる場合の確率分布は離散型確率分布である。
離散型の分布は母数と台 S と確率質量関数 f で特徴付けられる。台というのは確率変数のとる値の集合のことである。
- 離散一様分布
- 二項分布
- 母数:成功確率 p と試行回数 n
- 台:{0, 1, …, n}
- 確率質量関数:f(k) = nCk pk(1 − p)1−k
- これは成功確率 p の試行を独立に n 回行ったときの成功回数の分布である。
- 負の二項分布
- 多項分布
- ポアソン分布
- ポアソン二項分布
- ベルヌーイ分布
- 幾何分布
- 超幾何分布
- ジップ分布
- ゼータ分布
連続型編集
ある地点での通行人の体重など、確率変数が連続的な場合の確率分布は連続型確率分布である。
確率分布の利用法編集
確率変数の確率分布が与えられると、その変数に関する確率・期待値・分散などが以下のように計算できる。
X は連続型確率変数で密度関数は fX であるとする。Y は離散型確率変数で台は S = {y1, y2, …} で質量関数は fY であるとする。
確率の計算編集
- X が a 以上 b 以下の値を取る確率
- Y の値が集合 に属する確率
期待値の計算編集
関数 g が与えられたときに g(X) と g(Y) の期待値は
特に
分散の計算編集
X と Y の分散は
変数変換編集
確率変数の変数変換による新しい変数の密度関数は、元の変数の密度関数で書くことができる。この公式は重積分における変数変換とほぼ同様である。
確率密度関数の変数変換公式編集
から への変換 T により、 値確率変数 X と Y が
と書けているとすると、Y の確率密度関数は X の確率密度関数を用いて
となる。ただし J はヤコビアンとする。
例えばボックス-ミューラー変換は (0, 1]2 上の一様分布に従う確率変数 X = (X1, X2) を
によって変換する。X の密度関数は
であり、上の公式を当てはめると Y の確率密度関数は
となり、Y が二次元の標準正規分布に従うことが分かる。このように単純な分布を持つ変数を変換して、複雑な分布を作る操作は計算機による乱数の生成で重要となる。
確率変数の和の確率分布編集
2つの確率変数 X と Y の和 X + Y の確率分布や差 X − Y の確率分布は変数変換公式により計算できる。特に X と Y が独立で、確率密度関数がそれぞれ fX と fY だったとすると、和と差の確率密度関数は
となる。
特に和の確率密度関数は2つの分布の確率密度関数の畳み込みである。また、特性関数は確率密度関数のフーリエ変換であり、畳み込みのフーリエ変換は周波数領域における積であることから、和の特性関数は2つの分布の特性関数の積となる。
なお、確率変数の和の確率分布が元の分布族に従う場合、その分布は再生性があるという。
確率モデル編集
パーコレーション編集
浸透 (percolation) 確率に基づくモデル。具体的には森林火災の広がり、伝染病の伝搬、金属と絶縁体の混合物、強磁性元素と非磁性元素の混晶系、分子間の重合による巨大高分子のゲル化などがある[4]。
分岐過程編集
分岐過程 (branching process) は、生命の数変化モデル[5]。
ランダムウォーク編集
無限粒子系編集
無限粒子の遷移率の連続時間のモデル[6]。
凝集編集
拡散律速凝集 (DLA : diffusion limited aggregation) と呼ぶ、ヴィッテンとサンダーによる粒子のクラスターが凝集によって成長するモデル。
砂山崩し編集
バックたちによる砂山の斜面の崩壊を表すモデル。
渋滞編集
交通流の渋滞モデル。
生命編集
生命の時間的空間的モデル。セルオートマトンとも呼ぶ。生命競技 (life game) は2次元セルオートマトンの一種である。
排他過程編集
排他過程 (exclusion process) は、連続時間で発展する確率モデル。上記生命モデルが離散時間の決定論的モデルであるのに対応している[7]。
脚注編集
- ^ JIS Z 8101-1 : 1999, 1.3 確率分布.
- ^ a b JIS Z 8101-1 : 1999, 1.4 2次元分布関数.
- ^ JIS Z 8101-1 : 1999, 1.6 周辺分布.
- ^ 今野 1995, 第1章パーコレーションのモデル.
- ^ 今野 1995, 第2章分岐過程.
- ^ 今野 1995, 第4章無限粒子系.
- ^ 今野 1995, 第5章その他のモデル.
参考文献編集
- 西岡康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 9784274214073。
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 9784874720127。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 9784000803090。
- 今野紀雄 『確率モデルって何だろう―複雑系科学への挑戦』 ダイヤモンド社、1995年。ISBN 978-4478830086。