Q-Qプロット

これはこのページの過去の版です。Saico tan (会話 | 投稿記録) による 2022年7月26日 (火) 05:21個人設定で未設定ならUTC)時点の版 (→‎ヒューリスティック: BMDPのリンクを日本語版ページへのリンクに変更(孤立したページの解消))であり、現在の版とは大きく異なる場合があります。

Q–Qプロット: Q–Q plot, quantile-quantile plot)は、統計学における確率プロットの一つで、2つの確率分布分位数を互いにプロットして比較するグラフィカルな手法である。最初に、分位数の区間の集まりを選択する。プロット上の点 (x, y) は、第1の分布の同じ分位数(x座標)に対して、第2の分布の分位数の1つ(y座標)を打点したものである。従って、この直線は、分位数の区間の数をパラメータとするパラメトリック曲線である。

ランダムに生成された独立な標準指数分布データ(X ~ Exp(1))のQ–Qプロット。このQ–Qプロットは、縦軸にデータの標本をとり、横軸に統計的な母集団をとって比較したものである。このプロットは強い非線形の関係で、データが標準正規分布(X ~ N(0,1))に従って分布していないことを示唆している。線と点の間のずれは、データの平均が0ではないことを示唆し、点の中央値は0.7付近であることがわかる。
ランダムに生成された独立した標準正規分布のデータを縦上に、標準正規分布の母集団を横軸に比較した正規Q–Qプロット。 点が直線的であることから、データが正規分布に従っていることを示唆している。
あるデータ標本とワイブル分布をQ–Qプロットしたもの。赤点は分布の十分位数。範囲の最上位に3つの外れ値があることがでわかる。その他のデータはWeibull(1,2)モデルに良く適合している。
3月と7月のオハイオ州の25ヶ所における標準化された最高気温の分布を比較するQ–Qプロット。湾曲したパターンは、中央の分位数が3月よりも7月により狭く、7月の分布は3月の分布に比べて左に歪んでいることを示唆している。データは1893年から2001年の期間。

比較している2つの分布が類似している場合、Q–Qプロットの点は、ほぼ直線 y = x 上に位置する。分布が線形関係にある場合、Q–Qプロットの点は、ほぼ直線上に位置するが、必ずしも直線 y = x英語版上にあるとは限らない。Q–Qプロットは、分布の位置・尺度分布族英語版のパラメータを推定するためのグラフィカルな手法としても使用できる。

Q–Qプロットは、分布の形状を比較するために用いられ、位置英語版尺度歪度などの特性が2つの分布でどのように類似、または相違しているかをグラフィカルに表わす。Q–Qプロットは、データの集合や理論的分布を比較するために用いることができる。Q–Qプロットを用いて2組のデータ標本を比較することは、それらの潜在的な分布を比較するノンパラメトリック手法と見なすことができる[1][2]。Q–Qプロットは、一般的に、2つの標本のヒストグラムを比較する一般的な手法よりも強力なアプローチであるが、解釈にはより多くの技量を必要する。Q–Qプロットは、データセットを理論モデルと比較するためによく用いられる。これにより、「適合度」の評価を、数値による要約ではなく、グラフィカルに行うことができる。また、Q–Qプロットは、2つの理論的分布を相互に比較するためにも用いられる[3]。Q–Qプロットは分布を比較するので、散布図のように値を対として観察する必要はなく、比較される2つのグループの値の数を等しくする必要もない。

確率プロット

「確率プロット(probability plot)」という用語は、特にQ–Qプロットを指すこともあれば、場合によってはより一般的なプロットの種類を指し、またあまり一般的ではないP–Pプロット英語版を指すこともある。確率プロット相関係数プロット英語版(PPCCプロット)は、Q–Qプロットの概念から派生した量であり、観測データと適合した分布との適合度を評価し、分布をデータに適合させる手段として用いられることがある。

定義と構成

 
ワシントン州国道20号線の開通日/閉鎖日のQ–Qプロット、正規分布との比較。 外れ値が右上隅に示されている[4]

Q–Qプロットは、2つの分布の分位点のプロット、または分位点の推定に基づくプロットである。プロット内の点のパターンは、2つの分布を比較するために使用される。

Q–Qプロットを構成する主なステップは、プロットする分位数を計算/推定することである[5]。Q–Qプロットの軸の一方または両方が、連続累積分布関数(CDF)を伴う理論的分布に基づく場合、すべての分位点は一意に定義され、連続累積分布関数を反転する(逆関数を求める)ことで得られる。不連続な連続累積分布関数を伴う理論的確率分布が比較される2つの分布のうちの1つである場合、分位数が定義されない場合もあるため、補間された分位点をプロットするなどで対応する。Q–Qプロットがデータに基づいている場合、複数の分位数推定が使用されている。分位数を推定または補間しなければならないときにQ–Qプロットを形成するための規則はplotting positions(後述)と呼ばれる。

最も単純なケースは、全く同じサイズのデータセットが2つある場合である。この場合、Q–Qプロットを作成するために、各データを昇順に並べ、対応する値をプロットする。異なるサイズの2つのデータセットが比較される場合が少し複雑となる。この場合にQ–Qプロットを構成するには、対応する分位数を構成できるよう、補間された分位数推定値を使用する必要がある。

より抽象的には[3] 、関連する分位関数 F−1 と G−1(累積分布関数の逆関数が分位関数である)を有する2つの累積確率分布関数FおよびGが与えられると、Q–Qプロットは、qの値の範囲について、Gのq番目の分位に対してFのq番目の分位に線を引くことになる。したがって、Q–Qプロットは、[0,1]上に実平面R2内の値でインデックス付けされたパラメトリック曲線である。

解釈

Q–Qプロットにプロットされた点は、左から右に見ると常に非減少(単調増加)となる。比較される2つの分布が同一である場合、Q–Qプロットは45°の線y = xに従う。分布の1つの値を線形変換した後に2つの分布が一致した場合、Q–Qプロットはある直線をたどるが、その直線はy = xとは限らない。Q–Qプロットの傾きが線y = xよりもなだらかである場合、横軸にプロットされた分布は、縦軸にプロットされた分布よりも分散が大きい分布である。逆にQ–Qプロットの傾きがy = xよりも急であれば、縦軸にプロットされた分布は横軸にプロットされた分布よりも分散が大きい分布である。Q–Qプロットはしばしば円弧状であり、分布の一方が他方よりも歪んでいること、または分布の一方が他方より重いテールを有することを示す「S」字形となる。

Q–Qプロットは分位数に基づく手法であるが、標準Q–Qプロットでは、Q–Qプロット内のどの点が所定の分位数であるかを判断することはできまない。例えば、Q–Qプロットのみからでは、2つの分布のいずれかの中央値を決定することは不可能である。これを可能にする工夫がなされているQ–Qプロットも存在する。

分位数の線形回帰の切片および傾きは、標本の相対的な位置および相対的なスケールの尺度を与える。横軸にプロットされた分布の中央値が0である場合、回帰直線の切片が位置に対応し、勾配はスケールに対応する。中央値間の距離は、Q–Qプロットに反映される相対的位置の別の尺度である。「確率プロット相関係数」(PPCCプロット)は、標本分位数間の相関係数である。相関係数が1に近ければ近いほど、分布はシフトされ、互いに線形変換された分布に近づく。単一の形状パラメータを有する分布の場合、確率プロット相関係数プロットは、形状パラメータを推定する方法となる。形状パラメータの異なる値に対する相関係数を単純に計算し、異なるタイプの分布を比較しているかのように、最良の適合を有するものを単に使用する。

Q–Qプロットの別の一般的な使用法は、正規確率プロットのように、標準正規分布N(0,1)のような理論分布との比較である。2つのデータサンプル・順序統計量を比較する場合と同様に、データを並べ替え、理論分布の特定の分位点に対してプロットする[2]

プロットする位置

理論分布からの分位数の選択は、状況と目的に依存しうる。例えば、サイズnのサンプルが与えられたとき、サンプリング分布が実現する分位数であるので、k = 1、...、nに対してk / nを用いる。最後のn / nは100パーセンタイル(理論分布の最大値)に対応する。これは無限大になりうる。他にも、k /(n + 1)や、(k-0.5)/ nを用いて均等に配置するなどの手法が存在する[6]

理論的もしくは経験的な文脈を持つ理論またはシミュレーションに基づいて、多くの手法が提案されている。以下でこれらについて説明する。より詳しい問題は、ドイツのタンク問題として知られる「サンプルの最大値プラスギャップ」の解が存在する最大値(母集団の最大値の推定値)の選択である。最も単純にはm + m / n-1となる。 この間隔の均等化は、パラメータの最大間隔推定において生じる。

一様分布の順序統計量の期待値

 k / (n + 1) を用いる手法は、(n+1)個のランダムに描かれた値の最後が最初のn個のランダムに描かれた値のk番目に小さい値を超えない確率に従って点をプロットする方法に等しい[7][8]

標準正規分布の順序統計量の期待値

正規確率プロットを使用する際には、標準正規分布の順序統計量の期待値の尺度であるランキットを使用する。

より一般的には、シャピロ–ウィルク検定は、与えられた分布の順序統計量の期待値を用いる。 得られたプロットと回帰直線は、(フィッティングされた直線の切片と勾配から)位置とスケールの一般化された最小二乗推定値を生成する[9]。これは正規分布には(位置とスケールはそれぞれ平均と標準偏差によって推定されるため)あまり重要ではありませんが、他の多くの分布にも役立つ。

しかし、これは、順序統計量の期待値を計算する必要があり、分布が正規分布でない場合には困難な場合がある。

順序統計量の中央値

そのかわりに、一次分布の順序統計量の中央値の推定値および分布の分位関数に基づいて計算することができる順序統計量の中央値の推定値を使用してもよい(Filliben 1975)。

これは、分位関数を計算することができる任意の分布に対して容易に生成できるが、逆に結果として得られる位置およびスケールの推定値は正確には最小二乗推定値ではなくなる。

ヒューリスティック

比較分布の分位数については、式k /(n + 1)が広く使用されている。様々な異なる式が、アフィン対称プロット位置として使用または提案されている。そのような公式は、k /(n + 1)と(k-1)との間の範囲を与える、0から1/2の範囲内のある値について、(k-a)/(n + / 2)/ nとなる。

用いられる数式には以下のようなものがある

  • (k − 0.3) / (n + 0.4)[10]
  • (k − 0.3175) / (n + 0.365)[11]
  • (k − 0.326) / (n + 0.348)[12]
  • (k − ⅓) / (n + ⅓)[13]
  • (k − 0.375) / (n + 0.25)[14]
  • (k − 0.4) / (n + 0.2)[15]
  • (k − 0.44) / (n + 0.12)[16]
  • (k − 0.5) / (n)[17]
  • (k − 0.567) / (n − 0.134)[18]
  • (k − 1) / (n − 1)[19]

nが大きい場合、これらの手法の結果はほとんど一致する。

Fillibenの推定

順序統計中央値は、その分布の順序統計の中央値である。これらは、次のようにして連続一様分布についての分位関数および順序統計中央値の観点から表すことができる。

 

ここで U(i) は一様な順序統計中央値であり、Gは所望の分布についての分位関数である。分位関数は、累積分布関数の逆数(Xがある値以下である確率)である。すなわち、確率を仮定すると、累積分布関数の対応する分位数が必要となる

James J. Filliben は次の式を一様順序統計中央値を推定するために用いた。

 

この推定が非直感的な形をしている理由は、統計中央値は単純な形をしていないためである。

関連項目

  • プロビット チェスター・イトナー・ブリスが1934年に提案した関数

参考文献

  1. ^ Gnanadesikan (1977) p. 199.
  2. ^ a b (Thode 2002, Section 2.2.2, Quantile-Quantile Plots, p. 21)
  3. ^ a b (Gibbons & Chakraborti 2003, p. 144)
  4. ^ SR 20 – North Cascades Highway – Opening and Closing History”. North Cascades Passes. Washington State Department of Transportation (2009年10月). 2009年2月8日閲覧。
  5. ^ Wilk, M.B.; Gnanadesikan, R. (1968), “Probability plotting methods for the analysis of data”, Biometrika (Biometrika Trust) 55 (1): 1–17, doi:10.1093/biomet/55.1.1, JSTOR 2334448, PMID 5661047, https://jstor.org/stable/2334448. 
  6. ^ Weibull, Waloddi (1939), “The Statistical Theory of the Strength of Materials”, IVA Handlingar, Royal Swedish Academy of Engineering Sciences (No. 151) 
  7. ^ Madsen, H.O. (1986), Methods of Structural Safety 
  8. ^ Makkonen, L. (2008), “Bringing closure to the plotting position controversy”, Communications in Statistics - Theory and Methods (37): 460–467 
  9. ^ Testing for Normality, by Henry C. Thode, CRC Press, 2002, ISBN 978-0-8247-9613-6, p. 31
  10. ^ [[#CITEREFBenardBos-Levenbach1953._The_plotting_of_observations_on_probability_paper._Statistica_Neederlandica,_7:_163-173._doi:[https://doi.org/10.1111%2Fj.1467-9574.1953.tb00821.x_],_in_Dutch|Benard, Bos-Levenbach & 1953. The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. doi:10.1111/j.1467-9574.1953.tb00821.x, in Dutch]].
  11. ^ Engineering Statistics Handbook: Normal Probability Plot – Note that this also uses a different expression for the first & last points. [1] cites the original work by ([[#CITEREF|]]). This expression is an estimate of the medians of U(k).
  12. ^ Distribution free plotting position, Yu & Huang
  13. ^ A simple (and easy to remember) formula for plotting positions; used in BMDP statistical package.
  14. ^ This is ([[#CITEREF|]])’s earlier approximation and is the expression used in MINITAB.
  15. ^ Cunane (1978).
  16. ^ This plotting position was used by Irving I. Gringorten (Gringorten (1963)) to plot points in tests for the Gumbel distribution.
  17. ^ Hazen, Allen (1914), “Storage to be provided in the impounding reservoirs for municipal water supply”, Transactions of the American Society of Civil Engineers (No. 77): 1547–1550 
  18. ^ Larsen, Currant & Hunt (1980).
  19. ^ Used by Filliben (1975), these plotting points are equal to the modes of U(k).

外部リンク