2変量正規分布の幾何学的解釈

ここでは2変量正規分布の幾何学的解釈を行っていく。

まず重要な相関係数についての定理を述べる。

相関係数に関する性質

定理1　相関係数をパラメータにもつ関数

任意の2変量の分布の相関係数\(\rho\)は\(X^*=b_iX_i+c_i, b_i>0, i=1,2\)の変換に関して不変である。このような変換に関して不変である2変量正規分布のパラメータをもつすべての関数は\(\rho\)の関数である。

証明　多変量正規分布の平均ベクトル、共分散行列#1の補題2より、\(X_i^*\)の分散は\(\mathrm{var}[X_i^*]=\mathrm{Var}[b_iX_i+c_i]=b_i^2\sigma_i^2, i=1,2\)であり、\(X_1^*\)と\(X_2^*\)の共分散は\begin{align}\mathrm{Cov}(X_1^*, X_2^*)&=\mathrm{E}\Bigl[\bigl(X_1^*-\mathrm{E}[X_1^*]\bigr)\bigl(X_2^*-\mathrm{E}[X_2^*]\bigr)\Bigr]\\&=\mathrm{E}\Bigl[\bigl(b_1X_1+c_1-\mathrm{E}[b_1X_1+c_1]\bigr)\bigl(b_2X_2+c_2-\mathrm{E}[b_2X_2+c_2]\bigr)\Bigr]\\&=\mathrm{E}\bigl[b_1(X_1-\mu_1)b_2(X_2-\mu_2)\bigr]\\&=b_1b_2\sigma_{12}=b_1b_2\sigma_1\sigma_2\rho\end{align}である。\(X_1^*\)と\(X_2^*\)の相関係数の定義にこれらを代入することで、次を得る。\begin{align}\cfrac{\mathrm{Cov(X_1^*, X_2^*)}}{\sqrt{\mathrm{var}[X_1^*]\mathrm{Var}[X_2^*]}}&=\cfrac{b_1b_2\sigma_1\sigma_2\rho}{\sqrt{b_1^2\sigma_1^2b_2^2\sigma_2^2}}\\&=\rho.\end{align}\(f(\mu_1,\mu_2\sigma_1,\sigma_2,\rho)\)が\(X_i^*=b_iX_i+c_I\)の変換に関して不変であるとき、\(b_i=1/\sigma_i, c_i =-\mu_i/\sigma_i, i=1,2\)とすることで、関数は\(f(0,0,1,1,\rho)\)である。すなわち2変量正規分布の相関係数は任意の変換に関して不変であるので、一パラメータ\(\mu_i\)、尺度パラメータ\(\sigma_i\),\(i=1,2\)によらず、\(\rho\)にのみ依存するものは不変な関数となる。ここでパラメータの選び方は便宜上、位置を\(0\)、尺度を\(1\)とした。補足として、\(b_1, b_2\)の一方が負値である場合、\(X_1^*, X_2^*\)の相関係数の符号が反転するため、\(b_1>0\, i=1,2)と仮定している。□

相関係数\(\rho\)は\(X_1\)と\(X_2\)の自然な関連性の尺度である。位置、尺度パラメータに依存しない2変量正規分布のパラメータから成る任意の関数は\(\rho\)の関数である。標準化変数または標準スコアは\(Y_i=(X_i-\mu_i)/\sigma_i\)である。2つの標準化変数の差の二乗の平均は次である。\begin{align}\mathrm{E}[(Y_1-Y_2)^2] &= \mathrm{E}\left[\left(\cfrac{X_1-\mu_1}{\sigma_1}-\cfrac{X_2-\mu_2}{\sigma_2}\right)^2\right]\\&=\mathrm{E}\left[\cfrac{(X_1-\mu_1)^2}{\sigma_1^2}-2\cfrac{(X_1-\mu_1)(X_2-\mu_2)}{\sigma_1\sigma_2}+\cfrac{(X_2-\mu_2)^2}{\sigma_2^2}\right]\\&=\cfrac{\mathrm{Var}[X_1]}{\sigma_1^2}-2\cfrac{\mathrm{Cov(X_1,X_2)}}{\sigma_1\sigma_2}+\cfrac{\mathrm{Var}[X_2]}{\sigma_2^2}\\\label{eq1}&=2(1-\rho).\tag{1}\end{align}よって\eqref{eq1}も\(\rho\)の関数である。\eqref{eq1}が小さいほど、すなわち\(\rho\)が大きいほど、\(Y_1\)と\(Y_2\)が似ている。\(\rho>0\)のとき、\(X_1\)と\(X_2\)は正のそうかんをもち、\(\rho<0\)のとき負の相関をもつ。\(\rho=0\)のとき、\(X_1\)と\(X_2\)の2変量正規分布の同時密度関数は\(X_1\)と\(X_2\)の周辺密度関数の積となり、故に\(X_1\)と\(X_2\)は独立である。これは次によって、示される。

\(\rho=0\)のとき\(X_1\)と\(X_2\)の2変量正規分布の同時密度関数は\begin{align}&\cfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-0^2}}\exp\left\{-\cfrac{1}{2(1-0^2)}\left[\cfrac{(x_1-\mu_1)^2}{\sigma_1^2}-2\cdot0\cfrac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\cfrac{(x_2-\mu_2)^2}{\sigma_2^2}\right]\right\}\\&=\cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{1}{2}\left[\cfrac{(x_1-\mu_1)^2}{\sigma_1^2}+\cfrac{(x_2-\mu_2)^2}{\sigma_2^2}\right]\right\}\\&=\cfrac{1}{\sqrt{2\pi}\sigma_1}e^{-\cfrac{(x_1-\mu_1)^2}{2\sigma_1^2}}\cdot\cfrac{1}{\sqrt{2\pi}\sigma_2}e^{-\cfrac{(x_2-\mu_2)^2}{2\sigma_2^2}}\\&=n(x_1|\mu_1,\sigma_1^2)n(x_2|\mu_2,\sigma_2^2)\end{align}である。

多変量正規分布の幾何学的解釈

\(p\)次元ユークリッド空間において、すべての正の定数\(c\)に対して、2変量正規分布の確率密度関数は次の楕円体上で一定である。\begin{align}\label{eq2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=c\tag{2}.\end{align}

証明　2変量正規分布の確率密度関数は任意の\(p\)次元ベクトル\(\boldsymbol{x}\)について正である。ここで、この密度関数を\(c>0\)で固定する。\begin{align}(2\pi)^{-\frac{1}{2}p}|\boldsymbol{\Sigma}_|^{-\frac{1}{2}}e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}}=c.\end{align}両辺に対数をとると、次を得る。\begin{align}&-\cfrac{1}{2}p\log (2\pi)-\cfrac{1}{2}\log|\boldsymbol{\Sigma}| -\cfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=\log c\\&\Leftrightarrow (\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=-p\log(2\pi)-\log|\boldsymbol{\Sigma}|-2\log c.\end{align}正定値行列について#1系1より、の\(\boldsymbol{\Sigma}^{-1}\)は正定値行列であることから、\((\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})>0, \ ((\boldsymbol{x}-\boldsymbol{\mu})\neq\boldsymbol{0})\)である。よって、右辺を任意の正の定数\(c^*\)で置き換えることで、\begin{align}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=c^*\end{align}を得る。\(c^*\)が任意の正の定数であることより証明された。□

楕円体の中心は\(\boldsymbol{\mu}\)となる。形と向きは\(\boldsymbol{\Sigma}\)により決められ,、楕円体の大きさは\(c\)によって決められる。\(\boldsymbol{\Sigma}=\sigma^2\boldsymbol{I}\) のとき、\eqref{eq2}は球体となるため、\(n(\boldsymbol{x}|\boldsymbol{\mu}, \sigma^2\boldsymbol{I})\)は球面正規分布（spherical normal distribution）という。実際に\(\boldsymbol{\Sigma}=\sigma^2\boldsymbol{I}\)のとき、\begin{align}\boldsymbol{\Sigma}^{-1}=\cfrac{1}{\sigma^2}\begin{pmatrix}1&0\\0&1\end{pmatrix}=\cfrac{1}{\sigma^2}\boldsymbol{I}\end{align}となるので、次を得る。\begin{align}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})&=\cfrac{1}{\sigma^2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{I}(\boldsymbol{x}-\boldsymbol{\mu})\\&=\cfrac{\sum_{i=1}^p(x_i-\mu_i)^2}{\sigma^2}\\&=\sum_{i=i}^p\left[\cfrac{(x_i-\mu_i)^2}{\sigma^2}\right].\end{align}これを任意の正の定数\(c\)で固定すると、\begin{align}\sum_{i=1}^p\left[\cfrac{(x_i-\mu_i)^2}{\sigma^2}\right]=c\end{align}となり、これは\(p\)次元球面の方程式であり、\(\boldsymbol{\Sigma}=\sigma^2\boldsymbol{I}\)のとき、\eqref{eq2}は球面となることがわかる。

次に\eqref{eq2}の2変量の場合を考える。\((x_i-\mu_i)/\sigma_i=y_i, i=1,2\)の座標変換を行うと、楕円体の中心は\((0,0)\)となる。さらに楕円体の軌跡は次で定義される。\begin{align}\label{eq3}\cfrac{1}{1-\rho^2}(y_1^2-2\rho y_1y_2+y_2^2)=c.\tag{3}\end{align}これは2変量正規分布の確率密度関数について、\((x_i-\mu_i)/\sigma_i = y_i, i=1,2\)の変数変換を行うことで得られる。\(Y_1, Y_2\)の確率密度関数は\begin{align}&n(\boldsymbol{y}|\boldsymbol{0},\boldsymbol{I})\\&=\cfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left\{-\cfrac{1}{2(1-\rho^2)[y_1^2-2\rho y_1y_2+y_2^2]}\right\}\mathrm{mod}\begin{vmatrix}\sigma_1&0\\0&\sigma_2\end{vmatrix}\\&=\cfrac{1}{2\pi\sqrt{1-\rho^2}}\exp\left\{-\cfrac{1}{2(1-\rho^2)}[y_1^2-2\rho y_1y_2+y_2^2]\right\}\end{align}である。任意の正の定数\(c\)で固定すると\begin{align}\cfrac{1}{2\pi\sqrt{1-\rho^2}}\exp\left\{-\cfrac{1}{2(1-\rho^2)}[y_1^2-2\rho y_1y_2+y_2^2]\right\}=c\end{align}であり、両辺に対数をとると、次を得る。\begin{align}&-\log(2\pi)-\cfrac{1}{2}\log(1-\rho^2)-\cfrac{1}{2(1-\rho^2)}(y_1^2-2\rho y_1y_2+y_2^2)=\log c\\&\Leftrightarrow \cfrac{1}{1-\rho^2}y_1^2 -2\rho y_1y_2 +y_2^2 = -2\log(2\pi)-\log(1-\rho^2)-2\log c.\end{align}右辺を任意の正の定数\(c^*\)で置き換えることで\begin{align}\cfrac{1}{1-\rho^2}(y_1^2-2\rho y_1y_2+y_2^2)=c^*\end{align}を得る。

\eqref{eq3}の楕円の\(y_1\)軸と\(y_2\)軸上の切片は同じである。これは図1: 2変量正規分布の一定な密度の曲面より切片が同じであることが確認できる。\(\rho>0\)のときｍ楕円の長軸の長さは\(2\sqrt{c(1+\rho)}\)であり、\(45\)度洗浄にある。短軸の長さは\(2\sqrt{c(1-\rho)}\)である。\(\rho<0\)のとき、長軸の長さは\(2\sqrt{c(1-\rho)}\)であり、\(135\)度線上にある。短軸の長さは\(2\sqrt{c(1+\rho)}\)である。\(\rho\)の値は楕円の長軸と短軸の長さの比を決める。

2変量正規分布の幾何学的解釈の証明

ここでは上記の最後で述べた2変量正規分布の幾何学的解釈の証明を行う。

\(N(\boldsymbol{0}, \boldsymbol{\Sigma})\)に従う確率ベクトルを次で定義する。\begin{align}\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\end{pmatrix}, \ \ \ \ \boldsymbol{\Sigma}=\begin{pmatrix}1&\rho\\\rho&1\end{pmatrix}\end{align}とする。また\(\boldsymbol{\Sigma}^{-1}\)は正定値行列であるので、ある直交行列\(\boldsymbol{U}\)を用いて\begin{align}\boldsymbol{U}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{U}=\begin{pmatrix}\lambda_1 &0\\0&\lambda_2\end{pmatrix}\end{align}と対角化できる。ここに\(\lambda_1, \lambda_2\)は\(\boldsymbol{\Sigma}^{-1}\)の固有値である。\(\lambda_1>0, \lambda_2 >0\)、\(\boldsymbol{U}^T=\boldsymbol{U}^{-1}\)であることより、\begin{align}\boldsymbol{\Sigma}^{-1}&=(\boldsymbol{U}^T)^{-1}\begin{pmatrix}\lambda_1&0\\0&\lambda_2\end{pmatrix}\boldsymbol{U}^{-1}\\&=\boldsymbol{U}\begin{pmatrix}\lambda_1&0\\0&\lambda_2\end{pmatrix}\boldsymbol{U}^T\end{align}がいえる。したがって2次形式\(\boldsymbol{y}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{y}=y_1^2-2\rho y_1y_2+y_2^2\)は\begin{align}\boldsymbol{y}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{y}=\boldsymbol{y}^T\boldsymbol{U}\begin{pmatrix}\lambda_1&0\\0&\lambda_2\end{pmatrix}\boldsymbol{U}^T\boldsymbol{y}\end{align}となる。次に\(\boldsymbol{\Sigma}^{-1}\)の固有値を求める。\begin{align}&|\boldsymbol{\Sigma}^{-1}-\lambda\boldsymbol{I}|=0\\&\Leftrightarrow\left|\cfrac{1}{1-\rho^2}\begin{pmatrix}1 & -\rho\\-\rho&1\end{pmatrix}-\lambda\boldsymbol{I}\right|=0\\&\Leftrightarrow \begin{vmatrix}\cfrac{1-\lambda(1-\rho^2)}{1-\rho^2} &-\cfrac{\rho}{1-\rho^2}\\-\cfrac{\rho}{1-\rho^2}&\cfrac{1-\lambda(1-\rho^2)}{1-\rho^2}\end{vmatrix}=0\\&\Leftrightarrow \cfrac{\bigl\{1-\lambda(1-\rho^2)\bigr\}^2-\rho^2}{(1-\rho^2)^2}=0.\end{align}これを\(\lambda\)について解くと\begin{align}&\cfrac{\bigl\{1-\lambda(1-\rho^2)\bigr\}^2-\rho^2}{(1-\rho^2)^2}=0\\&\Leftrightarrow \lambda^2(1-\rho^2)^2-2\lambda(1-\rho^2)+(1-\rho^2)=0\\&\Leftrightarrow \lambda=\cfrac{2(1-\rho^2)\pm\sqrt{4(1-\rho^2)^2-4(1-\rho^2)^3}}{2(1-\rho^2)^2}\\&\Leftrightarrow \lambda= \cfrac{2(1-\rho^2)\pm\sqrt{4(1-\rho^2)^2\bigl\{1-(1-\rho^2)\bigr\}}}{2(1-\rho^2)^2}\\&\Leftrightarrow \lambda=\cfrac{2(1-\rho^2)\pm2\rho(1-\rho^2)}{2(1-\rho^2)^2}\\&\Leftrightarrow \lambda= \cfrac{(1\pm\rho)(1-\rho^2)}{(1-\rho^2)^2}\\&\Leftrightarrow \lambda=\cfrac{1\pm\rho}{1-\rho^2}.\end{align}よって固有値\(\lambda_1=(1+\rho)/(1-\rho^2), \lambda_2 = (1-\rho)/(1-\rho^2)\)を得る。\(\lambda_1\)についての固有ベクトルは次となる。\begin{align}&\begin{pmatrix}\cfrac{1-(1+\rho)}{1-\rho^2}& -\cfrac{\rho}{1-\rho^2}\\-\cfrac{\rho}{1-\rho^2}&\cfrac{1}{1-\rho^2}\end{pmatrix}\begin{pmatrix}x_1\\x_2\end{pmatrix}=\boldsymbol{0}\\&\Leftrightarrow \begin{pmatrix}\cfrac{-\rho x_1-\rho x_2}{1-\rho^2}\\\cfrac{-\rho x_1-\rho x_2}{1-\rho^2}\end{pmatrix}=\boldsymbol{0}\\&\Leftrightarrow\cfrac{-\rho(x_1+x_2)}{1-\rho^2}=0\\&\Leftrightarrow x_1=-x_2\\&\Leftrightarrow \begin{pmatrix}x_1\\x_2\end{pmatrix}=s\begin{pmatrix}1\\-1\end{pmatrix}.\end{align}ここに\(s\)ｈ任意の定数である。\(\lambda_2\)についての固有ベクトルも同様にして次となる。\begin{align}\begin{pmatrix}x_1\\x_2\end{pmatrix}=s\begin{pmatrix}1\\1\end{pmatrix}.\end{align}ここで2次形式\(\boldsymbol{y}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{y}\)を任の正の定数\(c\)で固定する。\begin{align}\boldsymbol{y}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{y}=\boldsymbol{y}^T\boldsymbol{U}\begin{pmatrix}\lambda_1 & 0\\0&\lambda_2\end{pmatrix}\boldsymbol{U}^T\boldsymbol{y}=c.\end{align}\(\lambda_1,\lambda_2\)の固有ベクトルから正規直交化した行列を\(\boldsymbol{U}\)とする。それぞれの固有ベクトルのスカラーを除いた部分を\(\boldsymbol{u}_1, \boldsymbol{u}_2\)とする。\(\boldsymbol{u}_1, \boldsymbol{u}_2\)は\(\boldsymbol{u}_1^T\boldsymbol{u}_2=0\)より、直交するため正規化を行う。次の正規化を行うことで\begin{align}\boldsymbol{U}&=\begin{pmatrix}\cfrac{\boldsymbol{u_1}}{\|\boldsymbol{u}_1\|} & \cfrac{\boldsymbol{u}_2}{\|\boldsymbol{u}_2\|}\end{pmatrix}\\&=\cfrac{1}{\sqrt{2}}\begin{pmatrix}1 & 1\\-1&1\end{pmatrix}\end{align}よって\begin{align}&\begin{pmatrix}y_1&y_2\end{pmatrix}\cfrac{1}{\sqrt{2}}\begin{pmatrix}1&1\\-1&1\end{pmatrix}\begin{pmatrix}\cfrac{1+\rho}{1-\rho^2} &0\\0&\cfrac{1-\rho}{1-\rho^2}\end{pmatrix}\cfrac{1}{\sqrt{2}}\begin{pmatrix}1&-1\\1&1\end{pmatrix}\begin{pmatrix}y_1\\y_2\end{pmatrix}=c\\&\Leftrightarrow\cfrac{1}{\sqrt{2}}\begin{pmatrix}y_1-y_2&y_1+y_2\end{pmatrix}\begin{pmatrix}\cfrac{1+\rho}{1-\rho^2} &0\\0&\cfrac{1-\rho}{1-\rho^2}\end{pmatrix}\cfrac{1}{\sqrt{2}}\begin{pmatrix}y_1-y_2\\y_1+y_2\end{pmatrix}=c.\end{align}\(\boldsymbol{y}^* = \boldsymbol{U}^T\boldsymbol{y}\)とすると\begin{align}&\cfrac{1}{\sqrt{2}}\begin{pmatrix}y_1-y_2&y_1+y_2\end{pmatrix}\begin{pmatrix}\cfrac{1+\rho}{1-\rho^2} &0\\0&\cfrac{1-\rho}{1-\rho^2}\end{pmatrix}\cfrac{1}{\sqrt{2}}\begin{pmatrix}y_1-y_2\\y_1+y_2\end{pmatrix}\\&= (\boldsymbol{y}^*)^T\begin{pmatrix}\cfrac{1+\rho}{1-\rho^2}&0\\0&\cfrac{1-\rho}{1-\rho^2}\end{pmatrix}=c\\&\Leftrightarrow \cfrac{1+\rho}{1-\rho^2}y_1^{*2}+\cfrac{1-\rho}{1-\rho^2}y_2^{*2}=c\\&\Leftrightarrow \left(\cfrac{y_1^*}{\sqrt{c(1-\rho)}}\right)^2+\left(\cfrac{y_2^*}{\sqrt{c(1+\rho)}}\right)^2=1.\end{align}これは\(\rho>0\)のとき、長軸の長さは\(2\sqrt{c(1+\rho)}\)、短軸の長さは\(2\sqrt{c(1-\rho)}\)の楕円の方程式である。ここで、\(\boldsymbol{U}\)について回転行列を\begin{align}\boldsymbol{U}&=\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix}\end{align}とすると、\(\theta=45^{\circ}\)を得る。よって\begin{align}\left(\cfrac{y_1}{\sqrt{c(1-\rho)}}\right)^2+\left(\cfrac{y_2}{\sqrt{c(1+\rho)}}\right)^2=1\end{align}を\(45^{\circ}\)回転させた楕円の方程式であることがわかる。したがって、長軸は45度線上にある。\(\rho<0\)のとき、長軸の長さは\(2\sqrt{c(1-\rho)}\)、短軸の長さは\(2\sqrt{c(1+\rho)}\)であり長軸は135度線上にある。

2変量の場合確率密度関数は平面上の曲面であることが考えられる。確率密度関数の外形は地形図の等高線と同じであり、山の形を成している。\(\rho>0\)のとき、\(y_2=y_1\)上にそって山ができる。山のほとんどは第 1、3 象限にある。\(x_i=\sigma_iy_i+\mu_i\)の逆変換をするとき、楕円をそれぞれの軸に対して \(\sigma_i\)倍させ、中心を\((\mu_1,\mu_2)\)にずらしたものと対応する。