尺度水準

変数に割り当てられた番号内の情報の性質を説明する分類

尺度水準(しゃくどすいじゅん、: Level of measurement)とは、調査対象に割り振った変数、その測定、あるいはそれにより得られたデータを、それらが表現する情報の性質に基づき数学統計学的に分類する基準である。スタンレー・スティーヴンズStanley Smith Stevens)が1946年に論文「測定尺度の理論について」"On the Theory of Scales of Measurement" [1] で提案した分類がよく用いられる。

変数に対して可能な数学的操作は、変数を測定する尺度水準に依存し[3]、その結果特に統計学で用いるべき要約統計量および検定法も変数の尺度水準に依存する。また、扱っている数の範囲が実数全体なのか正の実数全体なのかを区別することも重要である[4]

スティーヴンズは低い方から順に以下の4つの尺度水準を提案しており、高い水準はより低い水準の性質を含む形になっている。また高い水準でのデータを低い水準に変換して扱うことができる。

統計学で扱うデータには主に2つ存在する。金額温度など具体的な数値で表現されるデータは量的 データ(計量データ)である。量的データ(計量データ)の中で0という数値に意味があり、重さ金額と いった数値が比率で表現可能な尺度は比尺度である。0という数値に意味がなく、温度といった数値の 差で表現可能な尺度は間隔尺度である。量的データは数値に限りがある、あるいは数えられる連続型分布か、出てくる数値が決められている離散型分布の区別が存在する。 一方で、数値で表現不可能なデータは質的データ(非計量データ)である。質的データ(非計量データ) の中で水質といった規定水準に順位をつけて、その順位に意味を持つものは順位尺度(序数尺度)である。 アンケートといった基準の順位に意味を持たず、集計上の順位を扱うデータは分類尺度(名義尺度)であ る。質的データは数値の桁によって離散型分布か連続型分布か異なるため区別しない。

名義尺度 編集

類別尺度ともいう(石井 1975)。この水準では数字を単なる名前として対象に割り振る。2つの対象に同じ数字がついていればそれらは同じカテゴリに属する。変数値間の比較は等しいか異なるかでしか行えない。順序もないし加減などの演算もできない。例えば、ISO 5218は、ヒトの性別に数値を割り当てているが、「女性は男性の2倍である」「法人は女性の4.5倍である」という意味にならない。

例としては電話番号、背番号、バスの系統番号など。代表値の指標として使えるのは最頻値のみである。統計的バラツキは変動比や情報エントロピーで評価できるが、標準偏差などの概念はありえない。名義尺度でのみ測定されるデータはカテゴリデータとも呼ばれる。

  • なおカテゴリデータを、ある性質が「あるかないか」という表現に直し、さらにこれを「1か0か」で表現したものをダミー変数という。ダミー変数またはそれから算出されるスコア(点数)を、順序尺度以上の水準に準じて扱う方法もよく用いられる。

順序尺度 編集

この水準では対象に割り振られた数字は測定する性質の順序を表す。数字は等しいかどうかに加え、順序(大きいか小さいか)による比較ができる。しかし加減などの演算には意味がない。 例えば、国際原子力事象評価尺度がこれにあたる。チェルノブイリ原子力発電所事故はレベル7に評価されているが、これは「レベル6よりも上である」という意味ではあるが「レベル4の2倍に及ばない」という意味にはならない。 その他にも物理学的な例としてモース硬度がある。その他の例にはレースの着順などがあるが、これでは到着時間の差は記録できない。心理学社会科学の測定のほとんどは順序尺度で行われる。例えば社会的態度(保守的か進歩的かなど)や階級は順序水準で測定されるものである。また客の嗜好(アイスクリームのバニラ味とチョコレート味とどちらが好きか)のデータもこれで表現できる。順序尺度の代表値は最頻値や中央値で表されるが、中央値の方が多くの情報を与える。順序尺度で測定されるデータは順序(または順位)データと呼ぶ。

順序尺度を統計で用いる場合に、順序尺度を数値に置き換えて計算することがある。ただし、計算結果が元の順序尺度を保存していることが条件となる。

  • 各カテゴリに属す対象の個数という形のデータにまとめると数量データと呼ばれ、これは分割表で表示できる。これらに対して用いられる統計検定法はノンパラメトリックなものに限る。

間隔尺度 編集

対象に割り振る数字は順序水準の性質を全て満たし、差が等しいことは間隔が等しいことを意味する。 測定値の対(pair)の差の比較は意味がある。 加減の演算にも意味がある。 尺度上のゼロ点は任意で負の値も使える。

例はカレンダーの日付がある。 値の比は意味がない。直接の乗除の演算全般も同様に意味はない。 差の比には意味がある。 代表値は最頻値、中央値あるいは算術平均で表す。算術平均が最も多くの情報を与えるかどうかは対象による。 間隔尺度で測定したデータを間隔データと呼ぶ。 摂氏または華氏で測る温度も間隔尺度である。

比率尺度または比例尺度 編集

対象に割り振られた数字は間隔尺度の性質を全て満たし、さらにその中のペアの比にも、乗除の演算にも意味がある。比率水準のゼロ点は絶対的である。

ほとんどの物理学的量、つまり質量長さエネルギーは比率水準である。また温度も絶対温度で測れば比率尺度である。比率尺度で測定される変数の代表値は最頻値、中央値、算術平均あるいは幾何平均で表されるが、間隔尺度と同じく算術平均が最も多くの情報を与える。比率尺度で測定されるデータは比率データと呼ばれる。比率尺度で表される社会的変数には年齢、ある場所での居住期間、収入などといったものがある。

スティーヴンズは「名義尺度」、「順序尺度」、「間隔尺度」、及び「比率尺度」と呼び、両方を定量的なもの(順序、間隔、比率)と、定性的なもの(名義)にまとめた[1]スティーヴンズのこの分類は広く用いられてはいるものの、完全に認められたものではなく、議論がある。例えば、行動科学で順序尺度の平均値に意味があるかどうかといった議論がなされている。数学的には意味がないが、一部の行動科学者は実際に使っている。行動科学における順序尺度は実際には順序尺度と間隔尺度の中間にある(2つのランクの差は一定ではないが、ほぼ同程度である)というのがその理由である。[要出典]

脚注 編集

  1. ^ a b S. S. Stevens (1946), “On the Theory of Scales of Measurement”, Science 103 (2684): 677-680, doi:10.1126/science.103.2684.677, http://www.sciencemag.org/content/103/2684/677 
  2. ^ David H. Krantz; R. Duncan Luce; Patrick Suppes; Amos Tversky (1971). Foundations of Measurement: Additive and Polynomial Representations. I. Academic Press. pp. 10–11. ISBN 0-12-425401-2 
  3. ^ むしろ、尺度はどのような数学的変換が許されているかによって定義される[2]
  4. ^ R. Duncan Luce; David H. Krantz; Patrick Suppes; Amos Tversky (2007) [1990]. Foundations of Measurement: Representation, Axiomatization, and Invariance. III. Dover. p. 112. ISBN 0-486-45316-2 

参考文献 編集

石井 進『生物統計学入門. 具体例による解説と演習』(初)培風館、1975年。ISBN 4563037346 

片谷教孝・松藤敏彦『環境統計学入門 環境データの見方・まとめ方』(第1版第15版)オーム社、2019 年 10 月 30 日 第1版第15版

関連項目 編集