ここでは相関係数をより一般化した重相関係数の解説をする。
重相関係数
\(\boldsymbol{X}\)を\(\boldsymbol{X}^{(1)}\)\(\boldsymbol{X}^{(2)}\)に分割し、\(\boldsymbol{Y}^{(1)}=\boldsymbol{X}^{(1)}-\boldsymbol{B}(\boldsymbol{X}^{(2)})\)、\(\boldsymbol{Y}^{(2)}=\boldsymbol{X}^{(2)}\)とする。\(\boldsymbol{BX}^{(2)}\)の性質をみていく。
定義1 残差ベクトル
\(\boldsymbol{X}^{1\cdot2}=\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)}-\boldsymbol{B}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\)を\(\boldsymbol{X}^{(2)}\)に対する\(\boldsymbol{X}^{(1)}\)と\(\boldsymbol{X}^{(1)}\)との残差ベクトルという。
定理1 残差ベクトルの無相関性
\(\boldsymbol{X}^{(1\cdot2)}\)の各要素は\(\boldsymbol{X}^{(2)}\)の各要素と無相関である。
証明 \begin{align}\boldsymbol{X}^{(1\cdot2)} &= \boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)}-\boldsymbol{B}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\\&=\boldsymbol{X}^{(1)}-\boldsymbol{BX}^{(2)}-(\boldsymbol{\mu}^{(1)}-\boldsymbol{B\mu}^{(2)})\\&=\boldsymbol{Y}^{(1)}-\mathrm{E}[\boldsymbol{Y}^{(1)}].\end{align}さらに、条件付き分布の(24)式より\(\mathrm{E}[(\boldsymbol{Y}^{(1)}-\mathrm{E}[\boldsymbol{Y}^{(1)}])(\boldsymbol{Y}^{(2)}-\mathrm{E}[\boldsymbol{Y}^{(2)}])^T]=\boldsymbol{0}\)がいえる。したがって
\begin{align}&\mathrm{Cov}(\boldsymbol{X}^{(1\cdot2)}, \boldsymbol{X}^{(2)})\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1\cdot2)}-\mathrm{E}[\boldsymbol{X}^{(1\cdot2)}]\bigr)\bigl(\boldsymbol{Y}^{(2)}-\mathrm{E}[\boldsymbol{Y}^{(2)}]\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\boldsymbol{X}^{(1\cdot2)}\bigl(\boldsymbol{Y}^{(2)}-\mathrm{E}[\boldsymbol{Y}^{(2)}]\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{Y}^{(1)}-\mathrm{E}[\boldsymbol{Y}^{(1)}]\bigr)\bigl(\boldsymbol{Y}^{(2)}-\mathrm{E}[\boldsymbol{Y}^{(2)}]\bigr)^T\Bigr]\\&=\boldsymbol{0}.□\end{align}
\(\boldsymbol{\sigma}_{(i)}^T\)を\(\boldsymbol{\Sigma}_{12}\)の\(i\)行目、\(\boldsymbol{\beta}_{(i)}^T\)を\(\boldsymbol{B}\)の\(i\)行目とする。
定理2 残差ベクトルの分散
証明 定理1より
\begin{align}&\mathrm{Var}[X_i-\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}]\\&=\mathrm{E}\Bigl[\bigl(X_i-\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}-\mathrm{E}[X_i-\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}]\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-\mu_i-\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-\mu_i-\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})+(\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[X_i^{(1\cdot2)}-\mathrm{E}[X_i^{(1\cdot2)}]+(\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i^{(1\cdot2)}-\mathrm{E}[X_i^{(1\cdot2)}]\bigr)^2\Bigr]+2(\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})^T\mathrm{E}\Bigl[\bigl(X_i^{(1\cdot2)}-\mathrm{E}[X_i^{(1\cdot2)}]\bigr)(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\Bigr]\\&\ \ \ \ +(\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})^T\mathrm{E}\bigl[(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\bigr](\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})\\&=\mathrm{Var}[X_i^{(1\cdot2)}]+(\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})^T\boldsymbol{\Sigma}_{22}(\boldsymbol{\beta}_{(i)}-\boldsymbol{\alpha})\\ \label{eq2}&\Rightarrow \mathrm{Var}[X_i^{(1\cdot2)}]\leq \mathrm{Var}[X_i-\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}].\tag{2}\end{align}
最後の不等式は\(\boldsymbol{\Sigma}_{(22)}\)は正定値行列であり、\(\boldsymbol{\Sigma}_{(22)}\)についての\((\boldsymbol{\beta}_{(i)}−\boldsymbol{\alpha})\)の2次形式は非負値となることより得られ,、\(\mathrm{Var}[X_i^{(1\cdot2)}]\)は\(\boldsymbol{\alpha}=\boldsymbol{\beta}_{(i)}\)のとき、最小値\(0\)を得る。□
上の証明では、\(\mathrm{E}[\boldsymbol{X}^{(1\cdot2)}]=\boldsymbol{0}\)より、\(\mathrm{Var}[\boldsymbol{X}_i^{(1\cdot2)}]=\mathrm{E}E[(X_i^{(1\cdot2)})^2]\)であることを利用している。以上より、\(\boldsymbol{X}^{(2)}\)のすべての関数\(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c\)のうち、\(\mu_i +\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}−\boldsymbol{\mu}^{(2)})\)は誤差平方和を最小にするという意味で、最良な線形予測子である。
定理3 回帰係数行列の相関係数
証明 2変量間の相関係数は、一方の変数または両方が正の定数倍されたとき不変であるので、
\(\mathrm{E}[(\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}−\boldsymbol{\mu}^{(2)}))^2]=\mathrm{E}[(\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}−\boldsymbol{\mu}^{(2)}))^2]\)
と仮定できる。よって\eqref{eq1}を展開すると
\begin{align}&\mathrm{Var}[X_i^{(1\cdot2)}] \\&= \mathrm{E}\Bigl[\bigl(X_i-\mu_i-\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\bigl[(X_i-\mu_i)^2\bigr]-2\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\\&\ \ \ \ +\boldsymbol{\beta}_{(i)}^T\mathrm{E}\bigl[(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^2\bigr]\boldsymbol{\beta}_{(i)}\\&=\sigma_{ii}-2\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]+\mathrm{Var}[\boldsymbol{\beta}_{(i)}^T\boldsymbol{X}^{(2)}]\end{align}
を得る。また
\begin{align}&\mathrm{Var}[X_i-\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}]\\&=\mathrm{E}\Bigl[\bigl(X_i-\mu_i-\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\bigl[(X_i-\mu_i)^2\bigr]-2\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\\&\ \ \ \ +\boldsymbol{\alpha}^T\mathrm{E}\bigl[(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\bigr]\boldsymbol{\alpha}\\&=\sigma_{ii}-2\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]+\mathrm{Var}[\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}].\end{align}
したがって
\begin{align}&\sigma_{ii}-2\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]+\mathrm{Var}[\boldsymbol{\beta}_{(i)}^T\boldsymbol{X}^{(2)}]\\\label{eq4}&\leq \sigma_{ii}-2\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]+\mathrm{Var}[\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}].\tag{4}\end{align}
よって\eqref{eq4}の左辺と右辺のそれぞれ第1項と第2項が相殺され、両辺を\(\sqrt{\sigma_{ii}\mathrm{Var}[\boldsymbol{\beta}_{(i)}^T\boldsymbol{X}^{(2)}]}\)で割ることで、次を得る。
\begin{align}\label{eq5}\cfrac{\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]}{\sqrt{\sigma_{ii}\mathrm{Var}[\boldsymbol{\beta}_{(i)}^T\boldsymbol{X}^{(2)}]}}\geq \cfrac{\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]}{\sqrt{\sigma_{ii}\mathrm{Var}[\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}]}}\tag{5}□\end{align}
定義2 重相関係数
\(X_i\)と\(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}\)の最大の相関を、\(X_i\)と\(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}\)の重相関係数という。
このことから、重相関係数は
\begin{align}&\bar{R}_{i\cdot q+1,\ldots,p}\\&=\cfrac{\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]}{\sqrt{\sigma_{ii}}\sqrt{\mathrm{E}\bigl[\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\beta}_{(i)}\bigr]}}\\&=\cfrac{\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\mathrm{E}\bigl[(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(X_i-\mu_i)\bigr]}{\sqrt{\sigma_{ii}}\sqrt{\mathrm{E}\bigl[\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}\bigr]}}\\&=\cfrac{\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}}{\sqrt{\sigma_{ii}}\sqrt{\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}}}\label{eq6}\\&=\cfrac{\sqrt{\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}}}{\sqrt{\sigma_{ii}}}\tag{6}\end{align}
で表される。また、よく用いられる指標として、次がある。
\begin{align}1-\bar{R}_{i\cdot q+1,\ldots,p}^2&=\cfrac{\sigma_{ii}-\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}}{\sigma_{ii}}\\&=\cfrac{|\sigma_{ii}-\boldsymbol{\sigma}_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}|\cdot|\boldsymbol{\Sigma}_{22}|}{\sigma_{ii}|\boldsymbol{\Sigma}_{22}|}\\\label{eq7}&=\cfrac{|\boldsymbol{\Sigma}_{i}|}{\sigma_{ii}|\boldsymbol{\Sigma}_{22}|}.\tag{7}\end{align}
ここに
\begin{align}\label{eq8}\boldsymbol{\Sigma}_{i}&=\begin{pmatrix}\sigma_{ii}&\boldsymbol{\sigma}_{(i)}^T\\\boldsymbol{\sigma}_{(i)} & \boldsymbol{\Sigma}_{22}\end{pmatrix}\tag{8}\end{align}
であり、\eqref{eq7}の最後の等式はブロック行列についての定理2を利用した。また、条件付き分布の定義2の\(\sigma_{ii\cdot 1+1,\ldots,p}\)について
\begin{align}\label{eq9}\sigma_{ii\cdot q+1,\ldots,p}=\sigma_{ii}-\sigma_{(i)}^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{(i)}\tag{9}\end{align}であるため、\begin{align}\label{eq10}\sigma_{ii\cdot q+1,\ldots,p}=(1-\bar{R}_{i\cdot 1+1,\ldots,p}^2)\sigma_{ii}\tag{10}\end{align}
が成り立つ。
ちなみに、\eqref{eq10}は\(\boldsymbol{X}\)の要素のどの偏分散も\(\boldsymbol{X}\)の分散よりも大きくならないことを示している。実際に、\(\bar{R}_{i\cdot q+1,\ldots,p}\)が大きいほど、条件付き分布の分散の減少は大きい。このことから、\(X_i\)と\(\boldsymbol{X}^{(2)}\)の関連性の尺度として重相関係数が使われる。