相関係数とピアソンの積率相関係数について解説する。
相関係数およびピアソンの積率相関係数の定義を与え、その性質や幾何学的解釈などをみていく。
相関係数の検定については以下の記事を参照されたい。
-
【統計学】相関係数の検定・無相関性の検定
相関係数の検定を解説する。 相関係数の検定の検定統計量や棄却域の導出について解説する。 相関係数の分布の導出を行い、検定統計量をどのように構成すればよいかみていく。 相関係数については以下の記事を参照 ...
続きを見る
統計学の基礎を学習したい方へ
¥2,420 (2022/06/08 18:12時点 | Amazon調べ)
ポチップ ¥2,420 (2022/06/11 02:09時点 | Amazon調べ)
ポチップ
相関係数
相関係数とは2変量の確率変数の線形相関の尺度であり、共分散をそれぞれの分布の分散で正規化したもので定義される。
定義
ピアソンの積率相関係数の定義を紹介する。
相関係数
確率変数の組\((X, Y) \)が与えられているとする。このとき、\(X\)と\(Y\)の相関係数は次で定義される。
\begin{align} \rho_{X, Y} &= \cfrac{ \sigma_{X, Y}}{\sigma_X, \sigma_Y}\\ \label{eq1} &= \cfrac{\mathrm{Cov}[X, Y]}{\sqrt{\mathrm{Var}[X] \mathrm{Var}[Y]}},\tag{1} \end{align}
ここに\(\sigma_X\)、\(\sigma_Y\)、\(\sigma_{XY}\)は次で定義される分散、共分散である。
\begin{align} \sigma_X &= \mathrm{Var}[X] = \mathrm{E}\bigl[(X - \mathrm{E}[X])^2 \bigr], \\ \sigma_Y &= \mathrm{Var}[Y] = \mathrm{E}\bigl[(Y - \mathrm{E}[Y])^2 \bigr], \\ \sigma_{XY} &= \mathrm{Cov}[X, Y] = \mathrm{E}\bigl[( X - \mathrm{E}[X])(Y - \mathrm{E}[Y])\bigr].\end{align}
次のモーメントの公式
\begin{align}\label{eq2} \mathrm{Var}[X] &=\mathrm{E}[X^2] - \bigl(\mathrm{E}[X]\bigr)^2 , \tag{2}\\ \mathrm{Var}[Y] &=\mathrm{E}[Y^2] - \bigl(\mathrm{E}[Y]\bigr)^2,\\ \mathrm{Cov}(X, Y) &= \mathrm{E}[XY] - \mathrm{E}[X]\mathrm{E}[Y]\end{align}
を用いると、\eqref{eq1}は次のように\(X\)と\(Y\)の1次、2次モーメントで表すことができる。
\begin{align} \rho_{X, Y} &= \cfrac{\mathrm{E}[XY] - \mathrm{E}[X]\mathrm{E}[Y]}{\sqrt{\mathrm{E}[X^2] - \bigl(\mathrm{E}[X]\bigr)^2 \mathrm{E}[Y^2] - \bigl(\mathrm{E}[Y]\bigr)^2 }} .\end{align}
性質
相関係数\(\rho_{X, Y}\)の性質をいくつか紹介する。
相関係数の不等式
相関係数\(\rho_{X, Y}\)について、次の不等式が成り立つ。
\begin{align} - 1 < \rho_{X, Y} < 1.\end{align}
証明 確率変数\((X, Y )\)の共分散行列は次で定義される。
\begin{align}\boldsymbol{\Sigma} &= \begin{pmatrix} \sigma_X^2 & \sigma_{XY}\\ \sigma_{XY} & \sigma_{Y}^2 \end{pmatrix} .\end{align}
\(\boldsymbol{\Sigma}\)は正定値行列であることから、\(\boldsymbol{\Sigma}\)の行列式に関して次の不等式が成り立つ。
\begin{align}|\boldsymbol{\Sigma}| &= \sigma_X^2 \sigma_Y^2 - \sigma_{XY}^2 >0\end{align}
両辺を\( \sigma_X^2 \sigma_Y^2\)で割ることで次を得る。
\begin{align}& 1> \cfrac{\sigma_{XY}^2}{\sigma_{XY}^2 } \\ &\Leftrightarrow -1< \cfrac{\sigma_{XY}}{\sigma_X \sigma_Y }< 1.\end{align}
故に、相関係数は\(-1\)から\(1\)の間をとる。
\begin{align} -1 < \rho_{X, Y }< 1.\end{align}
相関係数の対称性
相関係数\(\rho_{X, Y}\)について次の対称性が成り立つ。
\begin{align}\rho_{X, Y} = \rho_{Y, X}.\end{align}
証明
\begin{align}\rho_{X, Y} &= \cfrac{\mathrm{Cov}[X, Y]}{\sqrt{\mathrm{Var}[X] \mathrm{Var}[Y] }} \\ &= \cfrac{\mathrm{E}\bigl[ (X - \mathrm{E}[X] )(Y - \mathrm{E}[Y])\bigr]}{\sqrt{\mathrm{Var}[X] \mathrm{Var}[Y] }} \\ &= \cfrac{\mathrm{E}\bigl[ (Y - \mathrm{E}[Y])(X - \mathrm{E}[X] )\bigr]}{\sqrt{\mathrm{Var}[Y] \mathrm{Var}[X] }} \\&= \cfrac{\mathrm{Cov}[Y, X]}{\sqrt{\mathrm{Var}[X] \mathrm{Var}[Y] }} \\ &= \rho_{Y, X}. \end{align}
相関係数の不変性
相関係数\(\rho_{X, Y}\)について次の不変性が成り立つ。
\begin{align}\rho_{X*, Y*} = \rho_{X, Y},\end{align}
ここに
\begin{align}X* &=aX + b , \\ Y* &= cY +d\end{align}
であり、\(a\)と\(c\)は任意の正の定数、 \(b\)と\(d\)は任意の定数。
証明
\begin{align}\rho_{X*, Y*} &= \cfrac{\mathrm{Cov}[X* , Y*]}{\sqrt{\mathrm{Var}[X*] \mathrm{Var}[Y*]}}\\&=\cfrac{ \mathrm{Cov}[aX + b, cY + d]}{\sqrt{\mathrm{Var}[aX + b] \mathrm{Var}[cY +d]}} \\&= \cfrac{\mathrm{E}\bigl[(aX + b - \mathrm{E}[aX + b])(cY + d - \mathrm{E}[cY + d])\bigr]}{\sqrt{a^2 \mathrm{Var}[X] c^2 \mathrm{Var}[Y]}} \\ &= \cfrac{\mathrm{E}\bigl[a(X - \mathrm{E[X]})c(Y - \mathrm{E}[Y]) \bigr]}{ac\sqrt{ \mathrm{Var}[X] \mathrm{Var}[Y]}} \\ &= \cfrac{ac\mathrm{Cov}[ X, Y]}{ac\sqrt{ \mathrm{Var}[X] \mathrm{Var}[Y]}}\\ &= \cfrac{\mathrm{Cov}[ X, Y]}{\sqrt{ \mathrm{Var}[X] \mathrm{Var}[Y]}}\\ &= \rho_{X, Y} .\end{align}
\(a\)と\(c\)の符号が異なるとき上の性質が成り立たないことに注意。
幾何学的解釈
相関係数\(\rho\)をグラフでみていく。例として次の2変量正規分布の確率密度をとりあげる。
\begin{align} f(x, y) = \cfrac{1}{2\pi \sigma_X \sigma_Y \sqrt{1 - \rho^2}} \exp\left\{ -\cfrac{1}{2(1 - \rho^2)} \left\{ (\cfrac{x - \mu_x}{\sigma_X})^2 -2\rho \cfrac{x - \mu_Y}{\sigma_X}\cfrac{y - \mu_Y}{\sigma_Y} + \left( \cfrac{y - \mu_Y}{\sigma_Y} \right)^2 \right\} \right] .\end{align}
簡便のため確率ベクトルと共分散行列を次で置き換える。
\begin{align} \boldsymbol{\mu} &= \begin{pmatrix} \mu_X\\ \mu_Y\end{pmatrix} = \begin{pmatrix} 0\\ 0\end{pmatrix},\\ \boldsymbol{\Sigma} &= \begin{pmatrix} \sigma_X & \sigma_{XY}\\ \sigma_{XY} & \sigma_Y \end{pmatrix} = \begin{pmatrix} 1 & \rho\\ \rho & 1\end{pmatrix} .\end{align}
確率密度関数より、この確率密度は次の楕円上で定義sされる。
\begin{align}\cfrac{1}{1 - \rho^2} (x^2 -2\rho x y + y^2) = c.\end{align}
\(\rho = 0.01, \ 0.5,\ 0.8, \ 0.99\)のときの確率密度はそれぞれ次の図のようになる。
上記の楕円方程式より、\(\rho\)が小さいとき確率密度は円に近づき、\(rho\)が大きいとき確率密度は\(y = x\)の直線に近づく。\(\rho\)が負のときは\(y = -x\)上で同様のことがいえる。
標本相関係数・ピアソンの積率相関係数
ピアソンの積率相関係数とは2変量から成るデータの線形相関の尺度である。ピアソンの積率相関係数は、単に相関係数やピアソンの相関係数とも呼ばれる。次の定義で紹介するように、2変量間の標本共分散を2つの標本分散で正規化したもので定義されたものであり、\(-1\)から\(1\)の間をとる。
ピアソンの積率相関係数
標本\((x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) \)が得られたとする。このとき、標本\(x_1, x_2, \ldots, x_n\)と\(y_1, y_2, \ldots, y_n\)の標本相関係数は次で定義される。
\begin{align}\label{eq3} r_{x, y} &= \cfrac{ s_{xy}}{s_x s_y} \tag{3}\\ &= \cfrac{ \sum_{i = 1}^n(x_i - \bar{x})(y_i - \bar{y})}{ \sqrt{\sum_{i = 1}^n (x_i - \bar{x})^2 \sum_{i = 1}^n(y_i - \bar{y})^2}} ,\end{align}
ここに\(\bar{x}\)、\(\bar{y}\)、\(s_x\)、\(s_y\)、\(s_{xy}\)は次で定義される標本平均、標本分散、標本共分散である。
\begin{gather}\bar{x} = \cfrac{1}{n}\sum_{i = 1}^n x_i, \quad \bar{y} = \cfrac{1}{n}\sum_{i = 1}^n y_i, \\ s_x = \cfrac{1}{n}\sum_{i = 1}^n (x_i - \bar{x})^2 , \quad s_y = \cfrac{1}{n}\sum_{i = 1}^n (y_i - \bar{y})^2, \\ s_{xy} = \cfrac{1}{n}\sum_{i = 1}^n (x_i - \bar{x})(y_i - \bar{y}).\end{gather}
また、次の公式
\begin{align} \sum_{i = 1}^n (x_i - \bar{x})^2 &= \sum_{i=1}^n (x_i^2 - 2x_i\bar{x} + \bar{x}^2)\\ &= \sum_{i=1}^n x_i^2 - 2 n \bar{x}^2 + n \bar{x}^2 \\ &= \sum_{i = 1}^n x_i^2 - n \bar{x}^2, \\ \sum_{i = 1}^n (x_i - \bar{x})(y_i - \bar{y}) &= \sum_{i = 1}^n (x_i y_i - x_i\bar{y} - \bar{x} y_i + \bar{x} \bar{y})\\ &= \sum_{i = 1}^n x_i y_i - n\bar{x}\bar{y} - n\bar{x} \bar{y} + n\bar{x} \bar{y} \\ &= \sum_{i = 1}^n x_i y_i - n \bar{x} \bar{y}\end{align}
を用いることで、\eqref{eq3}は次のように表すこともできる。
\begin{align} r_{x, y} &= \cfrac{\frac{1}{n}\left(\sum_{i = 1}^n x_i y_i - n\bar{x}\bar{y} \right) }{\sqrt{ \frac{1}{n} \left(\sum_{i = 1}^n x_i^2 - n\bar{x}^2\right) \frac{1}{n} \left( \sum_{i = 1}^n y_i^2 - n\bar{y}^2 \right) }} \\ &= \cfrac{\sum_{i = 1}^n x_i y_i - n \bar{x}\bar{y}}{\sqrt{ \left( \sum_{i = 1}^n x_i^2 - n\bar{x}^2 \right) \left( \sum_{i = 1}^n y_i^2 - n\bar{y}^2 \right)} }.\end{align}
性質
ピアソンの積率相関係数\(r_{x, y }\)の性質をいくつか紹介する。
標本相関係数の不等式
標本相関係数\(r_{x, y}\)について、次の不等式が成り立つ。
\begin{align} - 1 \leq r_{x, y} \leq 1.\end{align}
証明 コーシーシュワルツの不等式より、次の不等式が成り立つ。
\begin{align} \left( \sum_{i =1}^nu_i v_i \right)^2 \leq \left( \sum_{i =1}^nu_i^2\right) \left( \sum_{i =1}^nv_i^2 \right). \end{align}
両辺を\( ( \sum_{i =1}^nu_i^2) ( \sum_{i =1}^nv_i^2 )\)で割ることで次を得る。
\begin{align} &\cfrac{\left( \sum_{i=1}^n u_iv_i \right)^2}{ \left( \sum_{i =1}^nu_i^2\right) \left( \sum_{i =1}^nv_i^2 \right)} \leq 1\\ &\Leftrightarrow -1 \leq \cfrac{ \sum_{i=1}^n u_iv_i }{\sqrt{ \left(\sum_{i =1}^nu_i^2\right) \left( \sum_{i =1}^nv_i^2\right) }} \leq 1.\end{align}
\(u_i\)と\(v_i\)をそれぞれ\(x_i - \bar{x}\)と\(y_ i -\bar{y}\)で置き換えることで、次の標本相関係数の不等式を得る。
\begin{align}& -1 \leq \cfrac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }{\sqrt{ \sum_{i =1}^n(x_i - \bar{x})^2 \sum_{i =1}^n(y_i - \bar{y})^2 }} \leq 1\\ & -1 \leq r_{x, y} \leq 1. \end{align}
標本相関係数の分布
2変量正規分布から\(n\)個の標本\((x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\)が得られていて、その標本相関係数\(r_{x, y}\)の確率変数を\(r_{X, Y}\)とする。このとき\(r_{X,Y}\)に対して次が成り立つ。
\begin{align}t = r_{X, Y}\sqrt{\cfrac{n - 2}{1 - r_{X, Y}^2}}\sim t_{n-2}.\end{align}
標本相関係数の分布の導出に関しては、次の相関係数の検定を参照されたい。
標本相関係数と散布図
標本相関係数の例として散布図との関係を取り上げる。散布図は標本相関係数は密接に関係しており、2変量のデータの相関を考える際に非常に重要である。
次のグラフは、相関係数\(\rho = 0.01,\ 0.5,\ 0.8,\ 0.99\)、平均ベクトル\(\boldsymbol{\mu}= \boldsymbol{0}\)、共分散行列\(\boldsymbol{\Sigma} = \boldsymbol{I}\)の2変量正規分布からの20個の乱数をプロットしたものである。
標本相関係数\(r\)が\(0\)に近いほど\(x\)と\(y\)に相関がなく、\(1\)に大きいほど正の相関を持ち、標本\(x\)と\(y\)は\(y = x\)の周辺に分布していることが理解できる。反対に、\(r\)が負のときは逆に負の相関を持ち、標本\(x\)と\(y\)は\(y = -x\)の周辺に分布する。
次のグラフは特殊な散布図とそれに対応する標本相関係数をプロットしたものである。
最初の2つは\(r = 1,\ -1\)のときの散布図であり、それぞれ\(y = x\)、\(y = -x\)上にすべての標本が分布していることが分かる。最後の3つめのグラフは、標本\(x\)と\(y\)が円上に分布しているときの散布図と標本相関係数である。
グラフより、明らかに\(x\)と\(y\)には関係性があるが、標本相関係数\(r\)は0.09676と非常に小さく、相関がないという誤った推定が行われてしまう。このようなケースがあるため、ピアソンの積率相関係数のみを用いて2変量間の相関を推定するのではなく、散布図などの他の道具を用いた方がよいことが分かる。