【統計学】相関係数の検定・無相関性の検定

相関係数の検定を解説する。

相関係数の検定の検定統計量や棄却域の導出について解説する。

相関係数の分布の導出を行い、検定統計量をどのように構成すればよいかみていく。

相関係数については以下の記事を参照されたい。

: 【統計学】相関係数・ピアソンの積率相関係数
相関係数とピアソンの積率相関係数について解説する。相関係数およびピアソンの積率相関係数の定義を与え、その性質や幾何学的解釈などをみていく。相関係数の検定については以下の記事を参照されたい。相関係 ...
続きを見る

また、R言語の相関係数の検定については以下を参照。

: 【R言語】相関係数の検定・無相関性の検定　関数cor.testの使い方
R言語で相関係数の検定を行う方法を紹介します。この記事では、t分布に基づく無相関性の検定を実行する関数やその使い方について見ていきます。フィッシャーのz変換を用いた相関係数の検定、差の検定について ...
続きを見る

相関係数の検定・無相関性の検定

母集団分布が正規分布であるときの相関係数の検定についてみていく。この検定は「2変量間の相関係数が\(0\)であるか」という仮説を検定するため無相関性の検定とも呼ばれる。また、ピアソンの積率相関係数に関する検定であるため、パラメトリックな手法であり正規性の仮定が必要であることに注意が必要である。以下、相関係数の検定の概要である。

相関係数の検定

2変量正規分布から\((x_{11}, x_{21}), (x_{12}, x_{22}), \ldots, (x_{1n}, x_{2N})\)の\(N\)個の標本が与えられているとし、母集団分布の2変量間の相関係数を\(\rho\)、標本相関係数を\(r\)とする。このとき、次の仮説を考える。

\begin{align}&H_0:\ \rho = 0\\ &H_1:\ \rho \neq 0\end{align}

この仮説検定の検定統計量は次で与えられる。

\begin{align} \label{eq1} t = r \sqrt{\cfrac{N-2}{1 - r^2}}\sim t_{N-2}\tag{1} \end{align}

また、有意水準\(\alpha\)の棄却域は次で与えられる。

\begin{align}(-\infty, t_{N- 2, \alpha / 2}) \cup (t_{N- 2, \alpha / 2}, \infty).\end{align}

また、\eqref{eq1}のt統計量から、帰無仮説\(H_0:\ \rho = 0\)の下での標本相関係数\(r\)の分布を得ることができる。

標本相関係数の確率密度関数

\(H_0:\ \rho = 0\)の下で、\(r\)は次の確率密度関数を持つ。

\begin{align}\label{eq2} f(r) = \cfrac{\Gamma\bigl[\frac{1}{2}(N -1) \bigr]}{\sqrt{\pi} \Gamma\bigl[ \frac{1}{2}(N - 2) \bigr]} (1 - r^2)^{\frac{1}{2}(N - 4)}.\tag{2}\end{align}

検定統計量の導出

まず、帰無仮説\(H_0:\ \rho = 0\)の下での、\(r\)の分布を導出する。標本相関係数\(r\)を次で表す。

\begin{align}r = \cfrac{a_{12}}{a_{11}a_{22}},\end{align}

ここに

\begin{align} a_{ij} = \sum_{\alpha = 1}^N (x_{i\alpha} - \bar{x}_i) (x_{j\alpha} - \bar{x}_j), \quad i, j = 1,2.\end{align}

標本共分散行列の性質より、\(a_{ij}\)は次で表される。

\begin{align}a_{ij} = \sum_{\alpha= 1}^n z_{i\alpha}z_{j\alpha},\quad i,j = 1,2,\end{align}

ここに\(n = N - 1\)、

\begin{gather}\begin{pmatrix}z_{1\alpha}\\ z_{2\alpha}\end{pmatrix} \sim N\left[ \begin{pmatrix} 0\\ 0 \end{pmatrix}, \begin{pmatrix} \sigma_1^2 & \sigma_1\sigma_2 \rho \\ \sigma_2\sigma_1 \rho & \sigma_2^2\end{pmatrix} \right],\end{gather}

また、\((z_{11}, z_{21}), (z_{12}, z_{22}), \ldots, (z_{1n}, z_{2n})\)は互いに独立である。\(n\)次元ベクトル\(\boldsymbol{v}_i = (z_{i1}, z_{i2}, \ldots, z_{in})^T,\ i = 1,2\)を定義する。\(\boldsymbol{v}_1\)と\(\boldsymbol{v}_2\)の間の角を\(\theta\)とすると、標本相関係数\(r\)は\(\cos\theta\)で表せる。\(\cos \theta\)の分布を導出するために、まずは次の\(\cot \theta\)の分布を考える。

\begin{align}\label{eq3} \cot \theta = \cfrac{b\|\boldsymbol{v}_1\|}{\| \boldsymbol{v}_2 - b \boldsymbol{v}_1\|}, \tag{3} \end{align}

ここに\(b = \boldsymbol{v}_2^T\boldsymbol{v}_1 / \boldsymbol{v}_1^T\boldsymbol{v}_1\)。\(\boldsymbol{v}_1\)を固定したとき、\(n\)次元座標軸中の最初の座標軸が\(\boldsymbol{v}_1\)に沿うように変換を行うことができる。具体的には、\(\boldsymbol{v}_2 - b \boldsymbol{v}_1\)について、\(b\boldsymbol{v}_1\)の一番目の座標以外\(0\)となるような変換を行う。この結果\(\boldsymbol{v}_2 - b \boldsymbol{v}_1\)の一番目の座標は\(0\)となる。\(\boldsymbol{v}_1\)を与えた時、\(\cot \theta\)が最終的にt分布に従うことを証明していく。分布の導出の際に、\(\boldsymbol{v}_1\)を与えた時の\(\boldsymbol{v}_2\)の条件付き分布が必要になる。次の条件付き分布に関する補題を用いる。

条件付き分布の性質

\(\boldsymbol{X}_1, \boldsymbol{X}_2, \ldots, \boldsymbol{X}_n\)は互いに独立であるとし、\(\boldsymbol{X}_{\alpha} = (\boldsymbol{X}_{\alpha}^{(1)}, \boldsymbol{X}_{\alpha}^{(2)})^T\)は確率密度関数\(f(\boldsymbol{x}_{\alpha})\)を持つとする。また、\(\boldsymbol{X}_{\alpha}^{(1)} = \boldsymbol{x}_{\alpha}^{(1)} \)が与えられたときの\(\boldsymbol{X}_{\alpha}^{(2)} \)の条件付き密度関数を\(f(\boldsymbol{x}_{\alpha}^{(2)} |\boldsymbol{x}_{\alpha}^{(1)})\)とする。このとき、\(\boldsymbol{X}_1^{(1)} = \boldsymbol{x}_1^{(1)} , \ldots, \boldsymbol{X}_{n}^{(1)} = \boldsymbol{x}_n^{(1)} \)が与えられたときの\(\boldsymbol{X}_1^{(2)}, \boldsymbol{X}_2^{(2)}, \ldots, \boldsymbol{X}_n^{(2)} \)の条件付き分布において、\(\boldsymbol{X}_1^{(2)}, \boldsymbol{X}_2^{(2)}, \ldots, \boldsymbol{X}_n^{(2)}\)は互いに独立であり、\(\boldsymbol{X}_{\alpha}^{(2)}\)の確率密度関数は\(f(\boldsymbol{x}_{\alpha}^{(2)} | \boldsymbol{x}_{\alpha}^{(1)}),\ \alpha = 1, 2, \ldots, n\)である。

証明　\(\boldsymbol{X}_1^{(1)}, \boldsymbol{X}_2^{(1)}, \ldots,\boldsymbol{X}_n^{(1)}\)の周辺密度関数は\(\prod_{\alpha =1}^n f_1(\boldsymbol{x}_{\alpha}^{(1)})\)である。ここに\(f_1(\boldsymbol{x}_{\alpha}^{(1)})\)は\(\boldsymbol{X}_{\alpha}^{(1)}\)の周辺密度関数である。よって、\(\boldsymbol{X}_1^{(1)} = \boldsymbol{x}_1^{(1)} , \ldots, \boldsymbol{X}_{n}^{(1)} = \boldsymbol{x}_n^{(1)} \)が与えられたときの\(\boldsymbol{X}_1^{(2)}, \boldsymbol{X}_2^{(2)}, \ldots, \boldsymbol{X}_n^{(2)} \)の条件付き密度関数は

\begin{align}\cfrac{\prod_{\alpha = 1}^n f(\boldsymbol{x}_{\alpha})}{ \prod_{\alpha=1}^n f_1(\boldsymbol{x}_{\alpha}^{(1)} )} = \cfrac{f(\boldsymbol{x}_{\alpha})}{f_1(\boldsymbol{x}_{\alpha}^{(1)})} = \prod_{\alpha= 1}^n f(\boldsymbol{x}_{\alpha}^{(2)} | \boldsymbol{x}_{\alpha}^{(1)}).□\end{align}

確率変数であることが分かりやすいようにこれ以降\(V_i = (Z_{i1}, Z_{i2}, \ldots, Z_{in})^T,\ i = 1,2\)とする。多変量正規分布の条件付き分布より、\(Z_{1\alpha } = z_{1\alpha}\)が与えられたときの\(Z_{2\alpha}\)の条件付き分布は\(N(\beta z_{1\alpha} , \sigma^2)\)である。ここに\(\beta = \rho \sigma_2 / \sigma_1\)であり、\(\sigma^2 = \sigma_2^2(1 - \rho^2)\)である。故に、上の補題より\(\boldsymbol{Z}_{21}, \boldsymbol{Z}_{22}, \ldots, \boldsymbol{Z}_{2n}\)は独立であることから、\(\boldsymbol{V}_1 =\boldsymbol{v}_1\)が与えられたときの\(\boldsymbol{V}_2\)の分布は\(N(\beta \boldsymbol{v}_1, \sigma^2\boldsymbol{I})\)。\(b \boldsymbol{v}_1^T(\boldsymbol{V}_2 - b\boldsymbol{v}_1) = 0\)となるような確率変数を\(b = \boldsymbol{V}_2^T\boldsymbol{v}_1\ / \boldsymbol{v}_1^T\boldsymbol{v}_1 = a_{21} / a_{11}\)とおき、\(U = (\boldsymbol{V}_2 - b\boldsymbol{v}_1)^T(\boldsymbol{V}_2 - b\boldsymbol{v}_1) = \boldsymbol{V}_2^T\boldsymbol{V}_2 - b^2 \boldsymbol{v}_1^T\boldsymbol{v}_1 = a_{22} - a_{12}^2 / a_{11}\)とする。\(b\)と\(U\)を用いることで、\eqref{eq3}の\(\cot \theta\)は次で表現できる。

\begin{align}\cot \theta= b\sqrt{\cfrac{a_{11}}{U}}. \end{align}

ここで、最初の行が\((1/c)\boldsymbol{v}_1^T\)であるような次の\(n \times n\)直交行列\(\boldsymbol{C}\)により、\(\boldsymbol{V}_2= (Z_{21}, Z_{22}, \ldots, Z_{2n})^T\)の1番目の座標軸が\(\boldsymbol{v}_1\)に沿うように変換を行う。

\begin{align}\boldsymbol{C} &= \begin{pmatrix} \cfrac{1}{c} \boldsymbol{v}_1^T\\ \boldsymbol{c}_2^T\\ \vdots \\ \boldsymbol{c}_n^T. \end{pmatrix},\\ \boldsymbol{C}\boldsymbol{C}^T &= \begin{pmatrix} \cfrac{1}{c} \boldsymbol{v}_1^T\\ \boldsymbol{c}_2^T\\ \vdots \\ \boldsymbol{c}_n^T. \end{pmatrix} \begin{pmatrix} \cfrac{1}{c}\boldsymbol{v}_1 & \boldsymbol{c}_2 & \cdots & \boldsymbol{c}_n \end{pmatrix}\\\label{eq4} &= \begin{pmatrix} \cfrac{1}{c^2} \sum_{\alpha = 1}^n z_{1\alpha}^2 & \cfrac{1}{c}\sum_{\alpha=1}^n z_{1\alpha} c_{2\alpha} & \cdots & \cfrac{1}{c}\sum_{\alpha=1}^n z_{1\alpha} c_{n\alpha} \\ \cfrac{1}{c}\sum_{\alpha=1}^n c_{2\alpha} z_{1\alpha} & \sum_{\alpha=1}^n c_{2\alpha}^2 & \cdots & \sum_{\alpha=1}^n c_{2\alpha}c_{n\alpha} \\ \vdots &\vdots & \ddots & \vdots \\ \cfrac{1}{c}\sum_{\alpha=1}^n c_{n\alpha}z_{1\alpha} & \sum_{\alpha=1}^n c_{n\alpha}c_{2\alpha} & \cdots & \sum_{\alpha=1}^n c_{n\alpha}^2 \end{pmatrix} = \boldsymbol{I}\tag{4} . \end{align}

標本平均ベクトルの分布の定理1を用いることで、\(Y_{\alpha} = \sum_{\gamma = 1}^n c_{\alpha\gamma} Z_{2\gamma},\ \alpha = 1,2, \ldots, n\)は独立に次の平均と分散を持つ正規分布に従うことが言える。

\begin{align}\mathrm{E}[Y_1] &= \sum_{\gamma = 1}^n c_{1\gamma}\mathrm{E}[Z_{2\gamma}]\\ &= \sum_{\gamma = 1}^n \cfrac{z_{1\gamma}}{c}\beta z_{1\gamma} =\cfrac{\beta}{c} \sum_{\gamma = 1}^nz_{1\gamma}^2 = \beta c \\ \mathrm{E}[Y_{\alpha}] &= \sum_{\gamma= 1}^nc_{\alpha\gamma} \mathrm{E}[Z_{2\alpha}]\\ &= \sum_{\gamma = 1}^nc_{\alpha \gamma} \beta z_{1\gamma} \\&= \beta \sum_{\gamma = 1}^n c_{\alpha\gamma}cc_{1\gamma}\\ &= \beta c\sum_{\gamma = 1}^n c_{\alpha\gamma}c_{1\gamma} = 0,\quad \alpha \neq 1,\\\mathrm{Var}[Y_{\alpha}] &= \sigma^2.\end{align}

上式の計算の際に\eqref{eq4}から\((1/c^2)\sum_{\gamma = 1}^nz_{1\gamma}^2 = 1 \)、\(\sum_{\delta=1}^n c_{\alpha\delta}c_{\gamma \delta} = 0\)が成り立つことを用いた。今、

\begin{align}b &= \cfrac{\boldsymbol{V}_2^T\boldsymbol{v}_1}{\boldsymbol{v}_1^T\boldsymbol{v}_1}\\ &= \cfrac{\sum_{\alpha = 1}^n Z_{2\alpha}z_{1\alpha}}{\sum_{\alpha = 1}^n z_{1\alpha}^2} \\ &= \cfrac{\sum_{\alpha = 1}^nZ_{2\alpha}c c_{1\alpha}}{c^2}\\ \label{eq5} &= \cfrac{\sum_{\alpha= 1}^n Z_{2\alpha}c_{1\alpha}}{c} = \cfrac{Y_1}{c} \tag{5} \end{align}

であり、標本平均ベクトルの分布の補題1から

\begin{align}U &= \boldsymbol{V}_2^T\boldsymbol{v}_1 - b^2\boldsymbol{v}_1^T\boldsymbol{v}_1\\&= \sum_{\alpha = 1}^n Z_{2\alpha}^2 - b^2 \sum_{\alpha = 1}^nz_{1\alpha}^2 \\ &=\sum_{\alpha=1}^nY_{\alpha}^2 - \left(\cfrac{Y_1}{c}\right)^2 c^2\\ &= \sum_{\alpha = 1}^n Y_{\alpha}^2 - Y_1^2\\ &= \sum_{\alpha=2}^n Y_{\alpha}^2. \end{align}

\(b = Y_1 / c\)であり、\(U\)は\(Y_1\)以外の独立な確率変数\(Y_2, \ldots, Y_n\)の二乗和なので、\(U\)と\(b\)は独立である。したがって\( U / \sigma^2 \sim \chi_{n- 1}^2\)が成り立つ。この結果を次の補題にまとめる。

正規分布の条件付き分布の二乗和

\((Z_{1\alpha}, Z_{2\alpha}),\ \alpha = 1, 2, \ldots, n\)が独立に

\begin{align} N\left[\begin{pmatrix}0\\ 0\end{pmatrix}, \begin{pmatrix}\sigma_1^2 & \sigma_1\sigma_2\rho \\ \sigma_2\sigma_1\rho& \sigma_2^2\end{pmatrix}\right]\end{align}

に従うとき、\(Z_{11} =z_{11}, Z_{12} =z_{12}, \ldots ,Z_{1n} =z_{1n} \)が与えられた下で、\(b =\sum_{\alpha = 1}^nZ_{2\alpha}Z_{1\alpha} / \sum_{\alpha = 1}^nZ_{1\alpha}^2 \)と\(U/ \sigma^2 = \sum_{\alpha= 1}^n( Z_{2\alpha}- b Z_{1\alpha})^2 / \sigma^2\)は次の分布に従う。

\begin{align}b &\sim N(\beta, \sigma^2 / c^2), , \\ U &\sim \chi_{n-1}^2.\end{align}

また、\(b\)と\(U\)は独立である。ここに\(\beta =\rho \sigma_2 / \sigma_1 \)、\(\sigma^2 =\sigma_2^2 (1 - \rho^2)\)、\(c^2 = \sum_{\alpha=1}^nz_{1\alpha}^2\)

\eqref{eq5}の結果から

\begin{align}\mathrm{E}[b] &= \mathrm{E}\left[\cfrac{Y_1}{c}\right] = \cfrac{\beta c}{c}\\ &= \beta, \\ \mathrm{Var}[b] &= \mathrm{Var}\left[ \cfrac{Y_1}{c}\right] \\ &= \cfrac{\sigma^2}{c^2}\end{align}

であることから、 \(\rho = 0\)のとき、すなわち\(\beta = 0\cdot \sigma_2 / \sigma_1 = 0\)のとき、\(b\)は\(\boldsymbol{V}_1 = \boldsymbol{v}_1\)が与えられた下で\(N(0, \sigma^2 / c^2)\)に従う。また、t分布より

\begin{align} \cfrac{b / \sqrt{\sigma^2 / c^2}}{\sqrt{ \frac{U / \sigma^2}{n -1}}} &= \cfrac{cb / \sigma}{\left.\sqrt{\frac{U}{n -1}} \right/ \sigma}\\\label{eq6} &= \cfrac{cb}{\sqrt{\frac{U}{n - 1}}} \sim t_{n - 1}. \tag{6} \end{align}

上式を標本相関係数\(r\)を用いて表すと次のように書ける。

\begin{align}\cfrac{cb}{\sqrt{\frac{U}{n - 1}}} &= \cfrac{ \sqrt{a_{11}} a_{12} / a_{11}}{\sqrt{ \frac{a_{22} - a_{12}^2 / a_{11}}{n-1}}} \\ &=\sqrt{n - 1}\cfrac{\sqrt{a_{11}} a_{12} / a_{11}}{\sqrt{a_{22}\bigl\{ 1 - a_{12}^2 / (a_{11}a_{22}) \bigr\}}} \\&= \sqrt{n-1} \cfrac{a_{12} / \sqrt{a_{11}a_{22}}}{\sqrt{1 - a_{12}^2 / (a_{11}a_{22})}}\\ &= \sqrt{n- 1} \cfrac{r}{\sqrt{1 - r^2}}.\end{align}

したがって、\eqref{eq6}に示すように\(\sqrt{ n -1}r / \sqrt{1 - r^2}\)は自由度\( n - 1\)のt分布に従う。t分布の確率密度関数より、\(W =\sqrt{n - 1} r / \sqrt{1 - r^2}\)の確率密度関数は

\begin{align}\cfrac{\Gamma(\frac{1}{2}n)}{\sqrt{(n - 1) \pi} \Gamma(\frac{n - 1}{2})} \left[ 1 + \cfrac{w^2}{ n -1} \right]^{- \frac{1}{2}n}.\end{align}

である。\(w = \sqrt{n - 1} r / \sqrt{1 - r^2}\)の変換のヤコビアンは

\begin{align}\cfrac{dw}{dr} &=\sqrt{n - 1} \cfrac{ \sqrt{1 - r^2} + r^2 / \sqrt{ 1- r^2}}{1 - r^2}\\ &= \sqrt{n - 1} (1 - r^2)^{- \frac{3}{2}} \end{align}

であることから、標本相関係数\(r\)は次の確率密度関数は

\begin{align}f(r) &= \cfrac{\Gamma(\frac{1}{2}n)}{\sqrt{(n - 1) \pi} \Gamma(\frac{n - 1}{2})} \left[ 1 + \cfrac{1}{ n -1} \cfrac{(n - 1)r^2} {1 -r^2} \right]^{- \frac{1}{2}n} \left|\cfrac{dw}{dr} \right| \\ &= \cfrac{\Gamma(\frac{1}{2}n)}{\sqrt{(n - 1) \pi} \Gamma(\frac{n - 1}{2})} (1 -r^2)^{\frac{1}{2}n} \sqrt{n - 1} (1 - r^2)^{- \frac{3}{2}} \\ &= \cfrac{\Gamma(\frac{1}{2}n)}{\sqrt{\pi} \Gamma\bigl[ \frac{1}{2}(n - 1) \bigr]} (1 - r^2)^{\frac{1}{2}(n - 3)} \\ &= \cfrac{\Gamma\bigl[\frac{1}{2}(N -1) \bigr]}{\sqrt{\pi} \Gamma\bigl[ \frac{1}{2}(N - 2) \bigr]} (1 - r^2)^{\frac{1}{2}(N - 4)}.\end{align}

\eqref{eq2}の標本相関係数の確率密度関数が示せた。