多変量正規分布の線形結合の分布、確率変数の独立性

この記事では、多変量正規分布の線形結合の分布もまた多変量正規分布に従うことを示す。すなわち正規分布に従う確率変数から成るベクトルについて正則変換を行ったとき、変換後の分布も正規分布に従う確率変数から成るベクトルであることを示していく。

多変量正規分布の線形結合の分布

定理1　多変量正規分の線形結合の分布

\(p\)個の要素から成る\(\boldsymbol{X}\)は\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)にしたがうとする。このとき正則行列\(\boldsymbol{C}\)に対して\begin{align}\label{eq1} \boldsymbol{Y}&=\boldsymbol{CX}\tag{1}\end{align}は\(N(\boldsymbol{C\mu}, \boldsymbol{C\Sigma C}^T)\)に従う。

証明　\(\boldsymbol{Y}\)の確率密度関数は\(\boldsymbol{X}\)の確率密度関数\(n(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})\)の\(\boldsymbol{x}\)を\begin{align}\label{eq2}\boldsymbol{x}&= \boldsymbol{C}^{-1}\boldsymbol{y}\tag{2}\end{align}で置き換えて、次のヤコビアンを掛けることで得られる。

\begin{align}\label{eq3}\mathrm{mod}|\boldsymbol{C}^{-1}|&=\cfrac{1}{\mathrm{mod}|\boldsymbol{C}|}\\&=\sqrt{\cfrac{1}{|\boldsymbol{C}|^2}}\\&=\sqrt{\cfrac{|\boldsymbol{\Sigma}|}{|\boldsymbol{C}|\cdot|\boldsymbol{\Sigma}|\cdot|\boldsymbol{C}^T|}}\\&=\cfrac{|\boldsymbol{\Sigma}|^{\frac{1}{2}}}{|\boldsymbol{C\Sigma C}^T|^{\frac{1}{2}}}.\tag{3}\end{align}

\(n(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma})\)の指数部分の2次形式は

\begin{align}\label{eq4} Q&=(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\tag{4}\end{align}

であり、\eqref{eq2}の変数変換より\(Q\)は次となる。

\begin{align}Q&=(\boldsymbol{C}^{-1}\boldsymbol{y}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{C}^{-1}\boldsymbol{y}-\boldsymbol{\mu})\\&=\bigl[\boldsymbol{C}^{-1}(\boldsymbol{y}-\boldsymbol{C\mu})\bigr]^T\boldsymbol{\Sigma}^{-1}\bigl[\boldsymbol{C}^{-1}(\boldsymbol{y}-\boldsymbol{C\mu})\bigr]\\&=(\boldsymbol{y}-\boldsymbol{C\mu})^T(\boldsymbol{C}^{-1})^T\boldsymbol{\Sigma}^{-1}\boldsymbol{C}^{-1}(\boldsymbol{y}-\boldsymbol{C\mu})\\\label{eq5} &=(\boldsymbol{y}-\boldsymbol{C\mu})^T(\boldsymbol{C\Sigma C}^T)^{-1}(\boldsymbol{y}-\boldsymbol{C\mu}).\tag{5}\end{align}

\(\boldsymbol{CC}^{-1}=\boldsymbol{I}\)の両辺を転置することで

\((\boldsymbol{CC}^{-1})^T=\boldsymbol{I}\Leftrightarrow (\boldsymbol{C}^{-1})^T\boldsymbol{C}^T=\boldsymbol{I}\Leftrightarrow (\boldsymbol{C}^{-1})^T=(\boldsymbol{C}^T)^{-1}\)

を得る。このことから\(\boldsymbol{y}\)の確率密度関数は次となる。

\begin{align}&n(\boldsymbol{C}^{-1}\boldsymbol{y}|\boldsymbol{\mu} , \boldsymbol{\Sigma})\mathrm{mod}|\boldsymbol{C}|^{-1}\\&=(2\pi)^{-\frac{1}{2}p}|\boldsymbol{C\Sigma C}^T|^{-\frac{1}{2}}\exp\left[\tfrac{1}{2}(\boldsymbol{y}-\boldsymbol{C\mu})^T(\boldsymbol{C\Sigma C}^T)^{-1}(\boldsymbol{y}-\boldsymbol{C\mu})\right]\\\label{eq6}&=n(\boldsymbol{y}|\boldsymbol{C\mu}, \boldsymbol{C\Sigma C}^T).\qquad□\tag{6}\end{align}

ここで次のように表現される2つの確率変数の集合\(X_1, \ldots, X_q\)と\(X_{q+1}, \ldots, X_p\)を考える。

\begin{align}\label{eq7}\boldsymbol{X}^{(1)}&=\begin{pmatrix}X_{1}\\\vdots\\X_q\end{pmatrix},\qquad \boldsymbol{X}^{(2)}=\begin{pmatrix}X_{q+1}\\\vdots\\X_p\end{pmatrix}.\tag{7}\end{align}

\eqref{eq7}の変数は次の確率変数\(\boldsymbol{X}\)の部分ベクトルであり、次の等式を満たす。

\begin{align}\label{eq8}\boldsymbol{X}&=\begin{pmatrix}\boldsymbol{X}^{(1)}\\\boldsymbol{X}^{(2)}\end{pmatrix}=\begin{pmatrix}X_1\\\vdots\\X_p\end{pmatrix}.\tag{8}\end{align}

ここでこの\(p\)変量の確率ベクトルは次の平均ベクトル、共分散行列をもつ正規分布に従うと仮定する。

\begin{align}\label{eq9}\mathrm{E}[\boldsymbol{X}^{(1)}]&=\boldsymbol{\mu}^{(1)},\qquad\mathrm{E}[\boldsymbol{X}^{(2)}]=\boldsymbol{\mu}^{(2)},\tag{9}\end{align}

\begin{align}\end{align}\begin{align}\label{eq10}\mathrm{E}\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})^T\bigr]&=\boldsymbol{\Sigma}_{11},\tag{10}\\\label{eq11} \mathrm{E}\bigl[(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\bigr]&=\boldsymbol{\Sigma}_{22},\tag{11}\\\label{eq12} \mathrm{E}\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\bigr]&=\boldsymbol{\Sigma}_{12}.\tag{12}\end{align}

ここで、これらのパラメータについて\eqref{eq8}で\(\boldsymbol{X}\)を分割したときと同様に分割する。つまりこれらのパラメータは次で表現できる。

\begin{align}\label{eq13}\boldsymbol{\mu}&=\begin{pmatrix}\boldsymbol{\mu}^{(1)}\\\vdots\\\boldsymbol{\mu}^{(2)}\end{pmatrix},\tag{13}\end{align}\begin{align}\label{eq14}\boldsymbol{\Sigma}&=\begin{pmatrix}\boldsymbol{\Sigma}_{11}&\boldsymbol{\Sigma}_{12}\\\boldsymbol{\Sigma}_{21}&\boldsymbol{\Sigma}_{22}\end{pmatrix}.\tag{14}\end{align}

ここに\(\boldsymbol{\Sigma}_{21}=\boldsymbol{\Sigma}_{12}^T\)である。これは\(\boldsymbol{\Sigma}\)が正定値行列であるこより\(\boldsymbol{\Sigma}_{12}\)は\(\boldsymbol{\Sigma}_{21}\)と対称的であることよりいえる。

確率変数の独立性

次に\(\boldsymbol{\Sigma}_{12}=\boldsymbol{\Sigma}_{21}^T=\boldsymbol{0}\)のとき、\(\boldsymbol{X}^{(1)}\)と\(\boldsymbol{X}^{(2)}\)が独立であることを示す。\(\boldsymbol{\Sigma}_{12}=\boldsymbol{\Sigma}_{21}^T=\boldsymbol{0}\)のとき、\eqref{eq8}の共分散行列は

\begin{align}\label{eq15}\boldsymbol{\Sigma}&=\begin{pmatrix}\boldsymbol{\Sigma}_{11}&\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{\Sigma}_{22}\end{pmatrix}.\tag{15}\end{align}

である。また共分散行列の逆行列は次となる。

\begin{align}\label{eq16}\boldsymbol{\Sigma}^{-1}&=\begin{pmatrix}\boldsymbol{\Sigma}_{11}^{-1}&\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{\Sigma}_{22}^{-1}.\tag{16}\end{pmatrix}\end{align}

このことから\(n(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma})\)の指数部分の2次形式は

\begin{align}Q&=(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\\&=\Bigl[(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})^T, (\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})^T\Bigr]\begin{pmatrix}\boldsymbol{\Sigma}_{11}^{-1}&\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{\Sigma}_{22}^{-1}\end{pmatrix}\begin{pmatrix}(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})\\(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\end{pmatrix}\\&=\Bigl[(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})^T\boldsymbol{\Sigma}_{11}^{-1}, (\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}\Bigr]\begin{pmatrix}(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})\\(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\end{pmatrix}\\&=(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})^T\boldsymbol{\Sigma}_{11}^{-1}(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})+(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\\\label{eq17}&=Q_1+Q_2\tag{17}\end{align}

である。ここに

\begin{equation}\begin{gathered}\label{qe18}Q_1=(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})^T\boldsymbol{\Sigma}_{11}^{-1}(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)}), \\Q_2=(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)}).\end{gathered}\tag{18}\end{equation}

とする。またブロック行列について#1の(10)より\(|\boldsymbol{\Sigma}|=|\boldsymbol{\Sigma}_{11}|\cdot|\boldsymbol{\Sigma}_{22}|\)である。\(\boldsymbol{X}\)の確率密度関数は次のように書ける。

\begin{align}n(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma})&=\cfrac{1}{(2\pi)^{\frac{1}{2}p}|\boldsymbol{\Sigma}|}e^{-\frac{1}{2}Q}\\&=\cfrac{1}{(2\pi)^{\frac{1}{2}p}|\boldsymbol{\Sigma}_{11}|\cdot|\boldsymbol{\Sigma}_{22}|}e^{-\frac{1}{2}(Q_1+Q_2)}\\&=\cfrac{1}{(2\pi)^{\frac{1}{2}q}|\boldsymbol{\Sigma}_{11}|}e^{-\frac{1}{2}Q_1}\cdot\cfrac{1}{(2\pi)^{\frac{1}{2}p}|\boldsymbol{\Sigma}_{22}|}e^{-\frac{1}{2}Q_2}\\\label{eq19}&=n(\boldsymbol{x}^{(1)}|\boldsymbol{\mu}^{(1)}, \boldsymbol{\Sigma}_{11})n(\boldsymbol{x}^{(2)}|\boldsymbol{\mu}^{(2)}, \boldsymbol{\Sigma}_{22}).\tag{19}\end{align}

また\(\boldsymbol{X}^{(1)}\)の周辺密度関数は次の積分によって与えられる。

\begin{align}&\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}n(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma})dx_1\cdots dx_p\\&=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}n(\boldsymbol{x}^{(1)}|\boldsymbol{\mu}^{(1)}, \boldsymbol{\Sigma}_{11})n(\boldsymbol{x}^{(2)}|\boldsymbol{\mu}^{(2)}, \boldsymbol{\Sigma}_{22})dx_1\cdots dx_p\\&=n(\boldsymbol{x}^{(1)}|\boldsymbol{\mu}^{(1)}, \boldsymbol{\Sigma}_{11})\int_{-\infty}^{\infty}n(\boldsymbol{x}^{(2)}|\boldsymbol{\mu}^{(2)}, \boldsymbol{\Sigma}_{22})dx_{q+1}\cdots dx_p\\\label{eq20}&=n(\boldsymbol{x}^{(1)}|\boldsymbol{\mu}^{(1)}, \boldsymbol{\Sigma}_{11})\cdot1=n(\boldsymbol{x}^{(1)}|\boldsymbol{\mu}^{(1)}, \boldsymbol{\Sigma}_{11}).\tag{20}\end{align}

このことから、\(\boldsymbol{X}^{(1)}\)の周辺分布は\(N(\boldsymbol{\mu}^{(1)}, \boldsymbol{\Sigma}_{11})\)であり、同様にして\(\boldsymbol{X}^{(2)}\)の周辺分布は\(N(\boldsymbol{\mu}^{(2)}, \boldsymbol{\Sigma}_{22})\)である。よって\(X_1, \ldots, X_p\)の同時密度関数は\(X_1, \ldots , X_1\)と\(X_{q+1}, \ldots, X_p\)の周辺密度関数の積で表せる。故に2つの集合は独立である。変数の番号は\(\boldsymbol{X}^{(1)}\)が任意の変数の集合から成るように定めることができるので、次の定理の十分条件が示せた。

定理2　正規分布に従う確率変数の独立性と無相関の必要十分条件

\(X_1, \ldots, X_p\)が同時分布をもつとき、ある確率変数の集合が他の確率変数の集合と独立である必要十分条件は、ある集合の変数と他の集合の変数の共分散がそれぞれ\(0\)であることである。

必要条件は次の事実から示せる。\(X_i\)がある集合の要素で\(X_j\)が他の集合の要素であるとき、任意の\(\boldsymbol{X}\)の確率密度関数に対して次が成り立つ。

\begin{align}\sigma_{ij} &= \mathrm{E}\bigl[(X_i-\mu_i)(X_j-\mu_j)\bigr]\\&=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}(X_i-\mu_i)(X_j-\mu_j)f(x_1, \ldots, x_p)dx_1\cdots dx_p\\&=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}(X_i-\mu_i)(X_j-\mu_j)f(x_1, \ldots, x_q)f(x_{q+1}, \ldots, x_p)dx_1\cdots dx_p\\&=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}(X_i-\mu_i)f(x_1, \ldots, x_q)dx_1\cdots dx_q\\&\ \ \ \ \cdot\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}(X_j-\mu_j)f(x_{q+1}, \ldots, x_p)dx_{q+1}\cdots dx_p\\&=\left(\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}X_i f(x_1, \ldots, x_q)dx_1\cdots dx_q\right.\\&\ \ \ \ \left.-\mu_i\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f(x_1, \ldots, x_q)dx_1\cdots dx_q\right)\\&\ \ \ \ \cdot\left(\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}X_j f(x_{q+1}, \ldots, x_p)dx_{q+1}\cdots dx_p\right.\\&\ \ \ \ \left.-\mu_j\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f(x_{q+1}, \ldots, x_p)dx_{q+1}\cdots dx_p\right)\\\label{eq21}&=(\mu_i-\mu_i)(\mu_j-\mu_j)=0.\tag{21}\end{align}

\(\sigma_{ij}=\sigma_i\sigma_j\rho_{ij}\)、\(\sigma_i, \sigma_j\neq0\)であるので、\(\sigma_{ij}=0\)であることは\(\rho_{ij}=0\)であることと同値である。確率変数から成るある集合が他の集合と無相関であるとき、2つの集合は独立である。正規性を仮定したとき、無相関であるならば独立であると解釈できるが、逆は常に成り立つ。つまり正規性に関係なく独立ならば無相関であることがいえる。

特殊なケースとして2変量正規分布を考える。このとき\(\boldsymbol{X}^{(1)}=X_1\)、 \(\boldsymbol{X}^{(2)}=X_2\)、 \(\boldsymbol{\mu}^{(1)}=\mu_1\)、 \(\boldsymbol{\mu}^{(2)}=\mu_2\)、 \(\boldsymbol{\Sigma}_{11}=\sigma_{11}=\sigma_1^2\)、 \(\boldsymbol{\Sigma}_{22}=\sigma_{22}=\sigma_2^2 \)、\(\boldsymbol{\Sigma}_{12}=\boldsymbol{\Sigma}_{21}=\sigma_{12}=\sigma_1\sigma_2\rho_{12}\)である。\(X_1\)と\(X_2\)が2変量正規分布に従うとき、\(X_1\)と\(X_2\)が無相関であるときに限り、\(X_1\)と\(X_2\)は独立である。\(X_1\)と\(X_2\)が無相関であるとき\(X_i\)の周辺分布は平均\(\mu_i\)、分散\(\sigma_i^2\)をもつ正規分布である（\(i=1, 2\)）。またここまでの議論から次の補題が示される。

補題1　多変量正規分布の周辺分布

\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu}\boldsymbol{\Sigma})\)に従っていてかつ、\(\boldsymbol{X}\)のある要素の集合が他の要素の集合と無相関であるとき、その集合の周辺分布はその要素に対応する\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)の要素の平均、分散、共分散をもつ多変量正規分布である。

次に2つの集合が独立であるときも補題が成り立つことを示す。前と同じように\(\boldsymbol{X}\)、\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)を分割する。次の正則変化を部分ベクトルに対して行う。

\begin{align}\label{eq22}\boldsymbol{Y}^{(1)}&=\boldsymbol{X}^{(1)}+\boldsymbol{BX}^{(2)},\tag{22}\end{align}\begin{align}\label{eq23}\boldsymbol{Y}^{(2)}&=\boldsymbol{X}^{(2)},\tag{23}\end{align}

ここに\(\boldsymbol{Y}^{(1)}\)の要素が\(\boldsymbol{Y}^{(2)}=\boldsymbol{X}^{(2)}\)の要素と無相関になるように\(\boldsymbol{B}\)を決める。行列\(\boldsymbol{B}\)は次の方程式を満たす。

\begin{align}\boldsymbol{0}&=\mathrm{E}\Bigl[\bigl(\boldsymbol{Y}^{(1)}-\mathrm{E}[\boldsymbol{Y}^{(1)}]\bigr)\bigl(\boldsymbol{Y}^{(2)}-\mathrm{E}[\boldsymbol{Y}^{(2)}]\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}+\boldsymbol{BX}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(1)}+\boldsymbol{BX}^{(1)}]\bigr)\bigl(\boldsymbol{X}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\\&=\mathrm{E}\biggl[\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}]\bigr)+\boldsymbol{B}\bigl(\boldsymbol{X}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(2)}]\bigr)\Bigr]\bigl(\boldsymbol{X}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(2)}]\bigr)\biggr]\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}]\bigr)\bigl(\boldsymbol{X}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\\&\ \ \ \ +\mathrm{E}\Bigl[\boldsymbol{B}\bigl(\boldsymbol{X}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(2)}]\bigr)\bigl(\boldsymbol{X}^{(2)}-\mathrm{E}[\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\\\label{eq24}&=\boldsymbol{\Sigma}_{12}+\boldsymbol{B\Sigma}_{22}.\tag{24}\end{align}

これより\(\boldsymbol{0}=\boldsymbol{\Sigma}_{12}+\boldsymbol{B\Sigma}_{22}\Leftrightarrow \boldsymbol{B}=-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\)である。この結果より\(\boldsymbol{Y}^{(1)}\)は次となる。

\begin{align}\label{eq25} \boldsymbol{Y}^{(1)}&=\boldsymbol{X}^{(1)}+\boldsymbol{BX}^{(2)}=\boldsymbol{X}^{(1)}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{X}^{(2)}.\tag{25}\end{align}

次のベクトル

\begin{align}\boldsymbol{Y}&=\begin{pmatrix}\boldsymbol{Y}^{(1)}\\\boldsymbol{Y}^{(2)}\end{pmatrix}=\begin{pmatrix}\boldsymbol{I} & -\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\\\boldsymbol{0}&\boldsymbol{I}\end{pmatrix}\boldsymbol{X}\end{align}

は\(\boldsymbol{X}\)の正則変換であり、故に\(\boldsymbol{Y}\)は次の平均ベクトル、共分散行列をもつ正規分布に従う。

\begin{align}\mathrm{E}\left[\begin{pmatrix}\boldsymbol{Y}^{(1)}\\\boldsymbol{Y}^{(2)}\end{pmatrix}\right]&=\mathrm{E}\left[\begin{pmatrix}\boldsymbol{I}&-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\\\boldsymbol{0}&\boldsymbol{I}\end{pmatrix}\boldsymbol{X}\right]\\&=\begin{pmatrix}\boldsymbol{I}&-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\\\boldsymbol{0}&\boldsymbol{I}\end{pmatrix}\begin{pmatrix}\boldsymbol{\mu}^{(1)}\\\boldsymbol{\mu}^{(2)}\end{pmatrix}\\\label{eq27}&=\begin{pmatrix}\boldsymbol{\mu}^{(1)}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\\\boldsymbol{\mu}^{(2)}\end{pmatrix}=\begin{pmatrix}\boldsymbol{\nu}^{(1)}\\\boldsymbol{\nu}^{(2)}\end{pmatrix}\\&=\boldsymbol{\nu},\tag{27}\end{align}

\begin{align}&\mathrm{Var}[\boldsymbol{Y}]\\ &=\mathrm{E}\bigl[(\boldsymbol{Y}-\boldsymbol{\nu})(\boldsymbol{Y}-\boldsymbol{\nu})^T\bigr]\\&=\begin{pmatrix}\mathrm{E}\bigl[(\boldsymbol{Y}^{(1)}-\boldsymbol{\nu}^{(1)})(\boldsymbol{Y}^{(1)}-\boldsymbol{\nu}^{(1)})^T\bigr] & \mathrm{E}\bigl[(\boldsymbol{Y}^{(1)}-\boldsymbol{\nu}^{(1)})(\boldsymbol{Y}^{(2)}-\boldsymbol{\nu}^{(2)})^T\bigr]\\\mathrm{E}\bigl[(\boldsymbol{Y}^{(2)}-\boldsymbol{\nu}^{(2)})(\boldsymbol{Y}^{(1)}-\boldsymbol{\nu}^{(1)})^T\bigr]&\mathrm{E}\bigl[(\boldsymbol{Y}^{(2)}-\boldsymbol{\nu}^{(2)})(\boldsymbol{Y}^{(2)}-\boldsymbol{\nu}^{(2)})^T\bigr]\end{pmatrix}\\\label{eq28}&=\begin{pmatrix}\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1} & \boldsymbol{0}\\\boldsymbol{0} &\boldsymbol{\Sigma}_22\end{pmatrix}.\tag{28}\end{align}

\eqref{eq28}の導出に次の関係を用いた。

\begin{align}&\mathrm{E}\bigl[(\boldsymbol{Y}^{(1)}-\boldsymbol{\nu}^{(1)})(\boldsymbol{Y}^{(1)}-\boldsymbol{\nu}^{(1)})^T\bigr]\\&=\mathrm{E}\Bigl[\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]^T\Bigr]\\&=\mathrm{E}\Bigl[\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})^T-(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}\\&=\mathrm{E}\bigl[(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})^T\bigr]-\mathrm{E}\bigl[\mathrm{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}\bigr]\\&\ \ \ \ -\mathrm{E}\bigl[\mathrm{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(1)}-\boldsymbol{\mu}^{(1)})^T\bigr]\\&\ \ \ \ +\mathrm{E}\bigl[\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}bigr]\\&=\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}+\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{22}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}\\\label{eq29}&=\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}.\tag{29}\end{align}

このことから\(\boldsymbol{Y}^{(1)}\)と\(\boldsymbol{Y}^{(2)}\)は独立である。また補題1より\(\boldsymbol{X}^{(2)}=\boldsymbol{Y}^{(2)}\)は\(N(\boldsymbol{\mu}^{(2)}, \boldsymbol{\Sigma}_{22})\)の周辺分布をもつ。\(\boldsymbol{X}\)の要素のとり方は任意なので次の定理がいえる。

定理3　多変量正規分布の周辺分布

\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{X}\)の任意の要素の集合の周辺分布は、各要素に対応する\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)の要素を平均、分散、共分散にもつ多変量正規分布である。