ピアソンの積率相関係数

ピアソンの積率相関係数（ピアソンのせきりつそうかんけいすう、英: Pearson correlation coefficient, PCC）とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である^[1]^[2]。カール・ピアソンが研究した。一般的に、単に相関係数といえばピアソンの積率相関係数を指す。

ピアソンの積率相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという^[3]^[4]。

たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。

相関係数が ±1 に値をとることは、2つのデータ（確率変数）が線形の関係にあるときに限る^[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。

定義

母集団相関係数

正の分散を持つ確率変数 $X, Y$ が与えられたとき、共分散を $\operatorname {cov} [X,Y]$ 、標準偏差を $σ X, σ Y$ とおく。このとき

\rho ={\frac {\operatorname {cov} [X,Y]}{\sigma _{X}\sigma _{Y}}}

を確率変数 $X$ と $Y$ の母集団のピアソンの積率相関係数という。これは期待値を $E [\dots]$ で表せば

\rho ={\frac {E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]}{\sqrt {E\left[\left(X-E\left[X\right]\right)^{2}\right]E\left[\left(Y-E\left[Y\right]\right)^{2}\right]}}}

と書き直すこともできる。

標本相関係数

大きさの同じ2個のデータ $(x 1, x 2, \dots, x n), (y 1, y 2, \dots, y n)$ に対して、標本共分散を $s xy$ 、標本標準偏差をそれぞれ $s x, s y$ とおく。このとき

r:={\frac {s_{xy}}{s_{x}s_{y}}}={\frac {\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)\left(y_{i}-{\overline {y}}\right)}{\sqrt {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\sum \limits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}

を標本相関係数 (sample correlation coefficient) あるいは標本のピアソンの積率相関係数という。ただし、 $x, y$ はそれぞれデータ $(x 1, x 2, \dots, x n), (y 1, y 2, \dots, y n)$ の平均値で、 ${\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}$ , ${\overline {y}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}y_{i}$ である。

相関係数は、幾何学的には次のような意味になる。

データ $(x 1, x 2, \dots, x n), (y 1, y 2, \dots, y n)$ をそれぞれ $n$ 次の列ベクトル $x = [x 1 x 2 ... x n] ⊤, y = [y 1 y 2 ... y n] ⊤$ と考えると、 $x, y$ の偏差ベクトルはそれぞれ以下のようになる。

{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}={\begin{bmatrix}x_{1}-{\overline {x}}\\x_{2}-{\overline {x}}\\\vdots \\x_{n}-{\overline {x}}\end{bmatrix}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}={\begin{bmatrix}y_{1}-{\overline {y}}\\y_{2}-{\overline {y}}\\\vdots \\y_{n}-{\overline {y}}\end{bmatrix}}

ただし、 $1$ は全ての成分が1である $n$ 次の列ベクトルで、 $1 = [1 1 ... 1] ⊤$ である。このとき、 $x, y$ の偏差ベクトル $x - x 1, y - y 1$ のなす角を $θ$ としたときの

\cos \theta ={\frac {\langle {\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\rangle }{\|{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}\|\|{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\|}}

が標本相関係数 $r$ である。ここで、 $⟨ ●, ● ⟩$ は内積を表す。

データ $(x 1, x 2, \dots, x n), (y 1, y 2, ..., y n)$ が2次元正規分布からの標本のとき、標本相関係数 $r$ は母集団相関係数 $ρ$ の最尤推定量ではあるが、不偏推定量ではなく（絶対値で見ると）小さめに見積もりがちである^[6]。また外れ値に大きく影響してしまう。

例

下のような $X$ と $Y$ の同時確率分布を考える。

$\operatorname {P} (X=x,Y=y)$	$y=-1$	$y=0$	$y=1$
$x=0$	$0$	$1/3$	$0$
$x=1$	$1/3$	$0$	$1/3$

この同時分布の場合、周辺分布は以下のようになる。

\operatorname {P} (X=x)={\begin{cases}1/3&\quad {\text{for }}x=0\\2/3&\quad {\text{for }}x=1\end{cases}}

\operatorname {P} (Y=y)={\begin{cases}1/3&\quad {\text{for }}y=-1\\1/3&\quad {\text{for }}y=0\\1/3&\quad {\text{for }}y=1\end{cases}}

ここから以下の期待値および分散値が得られる。

\mu _{X}=2/3

\mu _{Y}=0

\sigma _{X}^{2}=2/9

\sigma _{Y}^{2}=2/3

したがって、相関係数 $\rho _{X,Y}$ は次の通り。

{\begin{aligned}\rho _{X,Y}&={\frac {1}{\sigma _{X}\sigma _{Y}}}\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})]\\[5pt]&={\frac {1}{\sigma _{X}\sigma _{Y}}}\sum _{x,y}{(x-\mu _{X})(y-\mu _{Y})\operatorname {P} (X=x,Y=y)}\\[5pt]&=(1-2/3)(-1-0){\frac {1}{3}}+(0-2/3)(0-0){\frac {1}{3}}+(1-2/3)(1-0){\frac {1}{3}}=0.\end{aligned}}

（すなわち「無相関」である）

誤解や誤用

This section is an excerpt from 相関係数 § 誤解や誤用.[編集]

相関と因果の混同

ピアソンの積率相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。

しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。

2つの変数（A，B）間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される（相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である）。

AがBを発生させる
BがAを発生させる
第3の変数CがAとBを発生させる（この場合、AとBの間に因果関係はなく擬似相関と呼ばれる）

因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パールやドナルド・ルービンなどによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。

相関係数と回帰係数の混同

相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか（具体的な関数の形）についての分析であり、また説明変数によって目的変数を予測するのを目的としている。初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。

HARKing

また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。

脚注

^ 栗原伸一『入門統計学―検定から多変量解析・実験計画法まで』オーム社、2011年、18頁。ISBN 978-4-274-06855-3。
^ Drouet Mari, Dominique; Kotz, Samuel (2001). “2.2.1. Linear relationship”. Correlation and Dependence. Imperial College Press. p. 11. ISBN 1-86094-264-4. MR1835042
^ 稲垣宣生『数理統計学』裳華房、1990年、66頁。ISBN 4-7853-1406-0。
^ 伏見康治「確率論及統計論」第III章　記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
^ 稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。「定理4.2.ii」
^ Hedges, Larry V.; Olkin, Ingram (1985). Statistical Methods for Meta-Analysis. p. 225