多変量正規分布の平均ベクトル、共分散行列#1

多変量正規分布のパラメータである平均ベクトル、共分散行列の性質をみていく。

平均ベクトルと共分散行列

まず次の一般的な確率行列を定義する。

定義1　確率行列

確率行列\(\boldsymbol{Z}\)は次の確率変数\(Z_{11},\ldots,Z_{mn}\)をもつ行列である。

\begin{align}\boldsymbol{Z}=(Z_{gh}),\ \ \ \ g=1,\ldots, m, \ \ h= 1,\ldots,n.\label{eq1}\tag{1}\end{align}

確率変数\(Z_{11},\ldots,Z_{mn}\)が有限の値を取りうるとき、確率行列\(\boldsymbol{Z}\)は有現地からなる行列\(\boldsymbol{Z}(1),\ldots,\boldsymbol{Z}(q)\)のうちの1つとなる確率を\(p_i\)とするとき、\(\mathrm{E}[\boldsymbol{Z}]\)を\(\sum_{i=1}^p(\boldsymbol{Z}(i)p_i)\)と定義する。確率変数\(Z_{11},\ldots,Z_{mn}\)が同時密度をもつときリーマン積分により\(\mathrm{\boldsymbol{Z}}\)は離散的な場合でそれぞれの成分の期待値の近似和の極限をとったものと定義できる。よって\(\mathrm{E}[\boldsymbol{X}]\)=\((\mathrm{E}[Z_{gh}])\)である。したがって次の期待値の定義を得る。

定義2　確率行列の期待値

確率行列\(\boldsymbol{Z}\)の期待値は次で与えられる。

\begin{align}\mathrm{E}[\boldsymbol{X}]=\bigl(\mathrm{E}[Z_{gh}]\bigr),\ \ \ \ g=1,\ldots,m,\ \ h=1,\ldots,n.\label{eq2}\tag{2}\end{align}

特に\(\boldsymbol{Z}\)が列ベクトルである場合、すなわち\(\boldsymbol{X}=(X_1,\ldots,X_p)^T\)である場合、期待値は次で与えられる。\begin{align}\mathrm{E}[\boldsymbol{X}]=\begin{pmatrix}\mathrm{E}[X_1]\\\vdots\\\mathrm{E}[X_p]\end{pmatrix}.\label{eq3}\tag{3}\end{align}これは\(\boldsymbol{X}\)の平均または平均ベクトルと呼ばれる。今後この平均ベクトルを\(\boldsymbol{\mu}\)と表記する。さらに\(\boldsymbol{Z}\)が\((\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^T\)である場合、その期待値は次で与えられる。

\begin{align}\mathrm{Var}[\boldsymbol{X}]&=\mathrm{E}[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^T]\\&=\bigl[\mathrm{E}\bigl[(X_i-\mu_i)(X_j-\mu_j)\bigr]\Bigr].\label{eq4}\tag{4}\end{align}

であり\(\boldsymbol{X}\)の共分散、または共分散行列という。この行列の\(i\)番目の対角成分\(\mathrm{E}[(X_i-\mu_i)^2]\)は確率変数\(X_i\)の分散、\(i,j\)成分\(\mathrm{E}[(X_i-\mu_i)(X_j-\mu_j)]\)は確率変数\(X_i\)と\(X_j\)の共分散である。今後、共分散行列は\(\boldsymbol{\Sigma}\)と表記する。共分散行列について次がいえる。

\begin{align}\mathrm{E}[\boldsymbol{X}]&=\mathrm{E}\bigl[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^T\bigr]\\&=\mathrm{E}[\boldsymbol{X}\boldsymbol{X}^T-\boldsymbol{X}\boldsymbol{\mu}^T-\boldsymbol{\mu}\boldsymbol{X}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T]\\&=\mathrm{E}\left[\begin{pmatrix}X_1^2&X_1X_2&\cdots&X_1X_p\\X_2X_1&X_2^2&\cdots&X_2X_p\\\vdots&\vdots&&\vdots\\X_pX_1&X_pX_2&\cdots&X_p^2\end{pmatrix}-2\begin{pmatrix}X_1\mu_1&X_1\mu_2&\cdots&X_1\mu_p\\X_2\mu_1&X_2\mu_2&\cdots&X_2\mu_p\\\vdots&\vdots&&\vdots\\X_p\mu_1&X_p\mu_2&\cdots&X_p\mu_p\end{pmatrix}\right. \\&\ \ \ \ \left.+\begin{pmatrix}\mu_1^2&\mu_1\mu_2&\cdots&\mu_1\mu_p\\\mu_2\mu_1&\mu_2^2&\cdots&\mu_2\mu_p\\\vdots&\vdots&&\vdots\\\mu_p\mu_1&\mu_p\mu_2&\cdots&\mu_p^2\end{pmatrix}\right]\\&=\mathrm{E}\left[\begin{pmatrix}X_1^2&X_1X_2&\cdots&X_1X_p\\X_2X_1&X_2^2&\cdots&X_2X_p\\\vdots&\vdots&&\vdots\\X_pX_1&X_pX_2&\cdots&X_p^2\end{pmatrix}\right]-\begin{pmatrix}\mu_1^2&\mu_1\mu_2&\cdots&\mu_1\mu_p\\\mu_2\mu_1&\mu_2^2&\cdots&\mu_2\mu_p\\\vdots&\vdots&&\vdots\\\mu_p\mu_1&\mu_p\mu_2&\cdots&\mu_p^2\end{pmatrix}\\&=\mathrm{E}[\boldsymbol{X}\boldsymbol{X}^T]+\boldsymbol{\mu}\boldsymbol{\mu}^T.\label{eq5}\tag{5}\end{align}

平均ベクトルと共分散行列の性質

さらに確率行列の期待値に関する補題を以下にまとめる。

補題1　確率行列の期待値の性質

\(\boldsymbol{X}\)が\(m\times n\)確率行列、\(\boldsymbol{D}\)が\(l\times m\)、\(\boldsymbol{E}\)が\(n\times q\)実行列、\(\boldsymbol{F}\)が\(l\times q\)実行列であるとき

\begin{align}\mathrm{E}[\boldsymbol{DZE}+\boldsymbol{F}]=\boldsymbol{D}\bigl(\mathrm{E}[\boldsymbol{Z}]\bigr)\boldsymbol{E}+\boldsymbol{F}\label{eq6}\tag{6}\end{align}

がいえる。

証明　\(\mathrm{E}[\boldsymbol{DZE}+\boldsymbol{F}]\)の\(i\)行目、\(j\)列目の要素は、統計学のための線形代数（今後追加）より、\(\boldsymbol{A}=(a_{ij})i=1,\ldots,l, j=1,\ldots,m\), \(\boldsymbol{B}=(b_{jk})\),\( j = 1,\ldots, l\), \(k=1,\ldots,m\)に対して\(\boldsymbol{AB}=(a_{ij})(b_{jk})=(\sum_{j=1}^m a_{ij}b_{jk})\)がいえるので次を得る。

\begin{align}\mathrm{E}\left[\sum_{g}^n\left(\sum_{h}^m(d_{ih}z_{hg})e_{gj}\right)+f_{ij}\right]=\mathrm{E}\left[\sum_{h,g}(d_{ih}z_{hg}e_{gj})+f_{ij}\right].\label{eq7}\tag{7}\end{align}

ここで\(a\), \(b\)をスカラー定数とすると期待値の性質\(\mathrm{E}[aX_i+b]=a\mathrm{E}[X_i]+b\), \(\mathrm{E}[\sum_{i}^pX_i]=\sum_{i}^p\mathrm{E}[X_i]\)より次を得る。

\begin{align}\mathrm{E}\left[\sum_{g,h}(d_{ih}z_{hg}e_{gj})+f_{ij}\right]=\sum_{g,h}\Bigl(d_{ih}\bigl(\mathrm{E}[Z_{gh}]\bigr)e_{gj}\Bigr)+f_{ij}.\label{eq8}\tag{8}\end{align}

これは\(\boldsymbol{D}(\mathrm{E}[\boldsymbol{Z}])\boldsymbol{E}+\boldsymbol{F}\)の\(i\)行目、\(j\)列目の成分である。よって\(i=1,\ldots,l\), \(j=1,\ldots,q\)について要素が一致するので、\(\mathrm{E}[\boldsymbol{DZE}+\boldsymbol{F}]=\boldsymbol{E}(\mathrm{E}[\boldsymbol{Z}])\boldsymbol{E}+\boldsymbol{F}\)が証明された。□

補題2　確率ベクトルの期待値と共分散行列の性質

\(\boldsymbol{X}\)を確率ベクトルであり、\(\boldsymbol{Y}=\boldsymbol{DX}+\boldsymbol{f}\)であるとき\begin{align}\mathrm{E}[\boldsymbol{Y}]&=\boldsymbol{D}\mathrm{E}[\boldsymbol{X}]+\boldsymbol{f},\label{eq9}\tag{9}\\\mathrm{Var}[\boldsymbol{Y}]&=\boldsymbol{D}\mathrm{Var}[\boldsymbol{X}]\boldsymbol{D}^T.\label{eq10}\tag{10}\end{align}

証明　\eqref{eq9}は補題 1より\(\boldsymbol{Z}\)を\(m\times 1\)確率行列、\(\boldsymbol{E}\)を\(1\times1\)実行列、\(\boldsymbol{F}\)を\(1\times1\)実行列とすることで明らかである。\eqref{eq10}について証明する。次がいえる。

\begin{align}&\mathrm{Var}[\boldsymbol{Y}]\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{Y}-\mathrm{E}[\boldsymbol{Y}]\bigr)\bigl(\boldsymbol{Y}-\mathrm{E}[\boldsymbol{Y}]\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{DX}+\boldsymbol{f}-\mathrm{E}[\boldsymbol{DX}+\boldsymbol{f}]\bigr)(\boldsymbol{DX}+\boldsymbol{f}-\mathrm{E}[\boldsymbol{DX}+\boldsymbol{f}])^T\biggr]\\&=\mathrm{E}\biggl[\boldsymbol{D}\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)\Bigl(\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)\Bigr)^T\biggr].\label{eq11}\tag{11}\end{align}

ここで\(l\times m\)行列\(\boldsymbol{A}\)、\(m\times n\)行列\(\boldsymbol{B}\)に対して、\((\boldsymbol{AB})^T=\boldsymbol{B}^T\boldsymbol{A}^T\)がいえるので\eqref{eq11}は次となる。\begin{align}&\mathrm{E}\biggl[\boldsymbol{D}\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)\Bigl(\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)\Bigr)^T\biggr]\\&=\mathrm{E}\Bigl[\boldsymbol{D}\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)^T\Bigr]\\&=\boldsymbol{D}\left(\mathrm{E}\Bigl[\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)\bigl(\boldsymbol{X}-\mathrm{E}[\boldsymbol{X}]\bigr)^T\Bigr]\right)\boldsymbol{D}^T\\&=\boldsymbol{D}\bigl(\mathrm{Var}[\boldsymbol{X}]\bigr)\boldsymbol{D}^T.\ \ \ \ □\end{align}

多変量正規分布の平均ベクトル、共分散行列#1

平均ベクトルと共分散行列

定義1 確率行列

定義2 確率行列の期待値

平均ベクトルと共分散行列の性質

補題1 確率行列の期待値の性質

補題2 確率ベクトルの期待値と共分散行列の性質

定義1　確率行列

定義2　確率行列の期待値

補題1　確率行列の期待値の性質

補題2　確率ベクトルの期待値と共分散行列の性質