ランキットとは統計におけるデータの用語であり、データと同じサイズの標準正規分布からの標本の順序統計量の期待値である。主に、正規性検定のグラフィカルな手法である標準確率プロットで使用される。

標準確率プロットの例。横軸がランキットである。

例を用いた説明がわかりやすい。期待値0と分散1(標準正規分布)の正規分布母集団から6項目の互いに独立な標本を抽出し、昇順に並べ替えると、結果の順序統計量の期待値は次のようになる。

−1.2672,   −0.6418,   −0.2016,   0.2016,   0.6418,   1.2672

データセット内の数字が

65, 75, 16, 22, 43, 40

とする。次に、これらを並べ替え、昇順に整列させると

16, 22, 40, 43, 65, 75

となり、それぞのデータは以下の表のように対応させられる。

標本の値 ランキット
16 −1.2672
22 −0.6418
40 −0.2016
43 0.2016
65 0.6418
75 1.2672

これらの点は直交座標の散布図に描画される。

他の手法

編集

データポイントを並べ替えるのではなく、それらを順位付けし、それに応じてランクを対応させる手法も存在する。この手法は同じ数字のペアを生成するが、順序が異なる


65, 75, 16, 22, 43, 40,

に対し、順位は

5, 6, 1, 2, 4, 3

であり、これは最初に出現する数字は5番目に小さく、2番目に出現する数字は6番目に小さく、3番目に出現する数字は最も小さく、4番目に出現する数字は2番目に小さいなどを示している。

標本の値 順位 ランキット
65 5 0.6418
75 6 1.2672
16 1 −1.2672
22 2 −0.6418
43 4 0.2016
40 3 −0.2016

ランキットプロット

編集

横軸のランクと縦軸のデータポイントをプロットしたグラフは、ランキットプロットまたは正規確率プロットと呼ばれる。そのようなプロットは自明に非減少(単調増加)となる。正規分布母集団からの十分大きなサンプルでは、そのようなプロットは直線に近づく。その直線から逸脱質エルデータに対しては、分布の正常性に対する疑わしい証拠と考えられる。

ランキットプロットは、データが特定の確率分布から抽出されたデータかどうかを視覚的に示すために使用されます。

ランキットプロットは一種のQ-Q plotである。Q-Qプロットは、仮定された正規分布のある分位数(ランク)に対して標本の順序統計量(分位数)をプロットする。しかし、Q-Qプロットは、正規分布に対して他の分位数を使用することができ、より一般的な手法とも言える。

歴史

編集

ランキット (rankit) と言う単語とランキットプロットは、生物学者と統計学者 Chester Ittner Bliss (1899–1979) によって導入された。

関連項目

編集

外部リンク

編集