多変量正規分布

条件付き期待値の補足

  1. HOME >
  2. 多変量正規分布 >

条件付き期待値の補足

スポンサーリンク

この記事では以前の記事重相関係数を補足していきます。

前回の記事をあらかじめ読むことをお勧めします。

条件付き期待値の解釈

\(\boldsymbol{\beta}_{(i)}^T\boldsymbol{X}^{(2)}\)は\(X_i\)の最良な線形予測子であり、\(X_i\)と最大の相関をもつ。\(\boldsymbol{X}^{(2)}\)の線形関数は正規性に関係なく、共分散の構造のみに依存する。\(\boldsymbol{X}\)が正規分布に従わない場合でも、\(\boldsymbol{X}^{(2)}\)に対する\(\boldsymbol{X}^{(1)}\)の回帰は\(\boldsymbol{\mu}^{(1)}+\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{X}^{(2)}−\boldsymbol{\mu}^{(2)})\)と定義される。前回の記事で、回帰 (条件付き期待値)、残差,、偏分散,、偏共分散を正規性を仮定せずに示している。残差は重相関係数の定義1により同様に定義され、偏共分散と偏相関係数は条件付き分布の(3)式(8)式から求まる共分散、相関係数として定義される。そのため、これらの量は必ずしも条件付き分布で説明できない。これは\(\boldsymbol{X}^{(2)}\)に対する\(\boldsymbol{X}^{(1)}\)の条件付き正規分布の密度関数と\(\boldsymbol{X}^{(2)}\)の周辺密度関数の積で同時分布を表したが、この仮定が使えないということである。正規性をもつ場合、\(\mu_i+\beta_{(i)}^T(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\)は\(\boldsymbol{X}^{(2)}=\boldsymbol{x}^{(2)}\)を与えたときの\(X_i\)の条件付き期待値である。正規性に関係なく、\(X_i−\mathrm{E}[X_i|\boldsymbol{X}^{(2)}]\)は\(\boldsymbol{X}^{(2)}\)の任意の関数と無相関であり、\(\mathrm{E}[X_i|\boldsymbol{X}^{(2)}]\)は\(\mathrm{E}[(X_i−h(\boldsymbol{X}^{(2)}))^2]\)を\(\boldsymbol{X}^{(2)}\)の関数\(h(\boldsymbol{X}^{(2)})\)に関し最小化し、\(\mathrm{E}[X_i|\boldsymbol{X}^{(2)}]\)は\(X_i\)と\(\boldsymbol{X}^{(2)}\)の相関を最大化させる。

正規性がない下での条件付き分布の性質

次に上で述べた性質を正規性がない下で証明していく。

定理1 条件付き期待値の性質1

期待値が定義される任意の同時分布と任意の関数\(h(\boldsymbol{x}^{(2)})\)について,、次が成り立つ。

\begin{align}\mathrm{E}\bigl[(X_i-\mathrm{E}[X_i|\boldsymbol{x}^{(2)}])h(\boldsymbol{x}^{(2)})\bigr]=0.\end{align}

証明 左辺について次が成り立つ。

\begin{align}\label{eq1}\mathrm{E}\bigl[(X_i-\mathrm{E}[X_i|\boldsymbol{x}^{(2)}])h(\boldsymbol{x}^{(2)})\bigr]&=\mathrm{E}\bigl[X_i^{(1\cdot2)}h(\boldsymbol{x}^{(2)})\bigr].\tag{1}\end{align}

任意の\(\boldsymbol{x}^{(2)}\)の関数について、任意のベクトル\(\boldsymbol{\alpha}\)と定数\(c\)を用い、\(h(\boldsymbol{x}^{(2)})=\boldsymbol{\alpha}^T\boldsymbol{x}^{(2)}+c\)とおく。このとき\eqref{eq1}は次となる。

\begin{align}\mathrm{E}\bigl[X_i^{(1\cdot2)}h(\boldsymbol{x}^{(2)})\bigr] &= \mathrm{E}\bigl[X_i^{(1\cdot2)}(\boldsymbol{\alpha}^T\boldsymbol{x}^{(2)}+c)\bigr]\\&=\boldsymbol{\alpha}^T\mathrm{E}[X_i^{(1\cdot2)}\boldsymbol{x}^{(2)}]+c\mathrm{E}[X_i^{(1\cdot2)}]\\&=\boldsymbol{\alpha}^T\mathrm{E}[X_i^{(1\cdot2)}\boldsymbol{x}^{(2)}].\end{align}

ここで重相関係数の定理1より\(\mathrm{Cov}(X_i^{(1\cdot2)}, \boldsymbol{X}^{(2)})=\boldsymbol{0}\)である。したがって\begin{align}\boldsymbol{\alpha}^T\mathrm{E}[X_i^{(1\cdot2)}\boldsymbol{x}^{(2)}] &= \boldsymbol{\alpha}^T\boldsymbol{0}\\&=0.□\end{align}

定理2 条件付き期待値の性質2

差の期待値をもつ\(X_i\)と\(\boldsymbol{X}^{(2)}\)の同時分布と任意の関数\(h(\boldsymbol{x}^{(2)})\)に対して\begin{align}\mathrm{E}\Bigl[\bigl(X_i−h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]=\mathrm{E}\Bigl[\bigl(X_i−g(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]+\mathrm{E}\Bigl[\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]\end{align}が成り立つ。<ここに\(g(\boldsymbol{x}^{(2)})=\mathrm{E}[X_i|\boldsymbol{x}^{(2)}]\)は\(\boldsymbol{X}^{(2)}=\boldsymbol{x}^{(2)}\)を与えたときの\(\boldsymbol{X}^{(1)}\)の条件付き期待値である。故に\(g(\boldsymbol{X}^{(2)})\)は予測二乗誤差の平均を最小化させる。

証明 左辺を展開する。

\begin{align}&\mathrm{E}\Bigl[\bigl(X_i−h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X^{(2)}})\bigr)+\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]+2\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X}^{(2)})\bigr)\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)\Bigr]\\&\ \ \ \ +\mathrm{E}\Bigl[\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]+2\mathrm{E}\Bigl[ \bigl\{ X_i-\mu_i-\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr\}\bigl\{\mu_i + (\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\beta}_{(i)}\bigr\}\bigr]\\&\ \ \ \ +\mathrm{E}\Bigl[\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]+2\mathrm{E}[X_i^{(1\cdot2)}\mu_i]+2(\boldsymbol{\sigma}_{12}+\boldsymbol{\beta}_{(i)}^T\boldsymbol{\Sigma}_{22})\boldsymbol{\beta}_{(i)}\\&\ \ \ \ +\mathrm{E}\Bigl[\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]+2(-\boldsymbol{\sigma}_{i2}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{2i}+\boldsymbol{\sigma}_{i2}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\sigma}_{2i}\\&\ \ \ \ +\mathrm{E}\Bigl[\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]\\&=\mathrm{E}\Bigl[\bigl(X_i-g(\boldsymbol{X}^{(2)})\bigr)^2\Bigr]+\mathrm{E}\Bigl[\bigl(g(\boldsymbol{X}^{(2)})-h(\boldsymbol{X}^{(2)})\bigr)^2\Bigr].□\end{align}

定理3 条件付き期待値の性質3

任意の関数\(h(\boldsymbol{x}^{(2)})\)と差の期待値が定義される\(X_i\)と\(\boldsymbol{X}^{(2)}\)の同時分布に対して、\(X_i\)と\(h(\boldsymbol{X}^{(2)})\)の相関は\(X_i\)と\(g(\boldsymbol{X}^{(2)})\)の相関より大きくならない。ここに\(g(\boldsymbol{x}^{(2)})=\mathrm{E}[X_i|\boldsymbol{x}^{(2)}]\)である。

証明 それぞれの相関係数を求めるために、まず共分散を求める。\(X_i\)と\(g(\boldsymbol{X}^{(2)})\)について

\begin{align}\mathrm{Cov}\bigl(X_i, g(\boldsymbol{X}^{(2)})\bigr)&=\mathrm{E}\Bigl[(X_i-\mu_i)\bigl(\mu_i+\boldsymbol{\beta}_{(i)^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})}\bigr)\Bigr]\\&=\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\end{align}

であり、これは\(X_i\)と\(\boldsymbol{\beta}_{(i)}^T\boldsymbol{X}^{(2)}\)の共分散に一致する。\(\boldsymbol{X}^{(2)}\)の任意の関数を\(h(\boldsymbol{X}^{(2)})=\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c\)とすると。\(X_i\)と\(h(\boldsymbol{X}^{(2)})\)について、

\begin{align}\mathrm{Cov}(X_i ,h(\boldsymbol{X}^{(2)}))&=\mathrm{E}\Bigl[(X_i-\mu_i)\bigl(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c-\mathrm{E}[\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c]\bigr)\Bigr]\\&=\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\end{align}

であり、これは\(X_i\)と\(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}\)の共分散である。次に、重相関係数の定理3の証明と同様に、\(g(\boldsymbol{X}^{(2)})\)の分散と\(h(\boldsymbol{X}^{(2)})\)の分散について、

\begin{align}\mathrm{E}\Bigl[\bigl(µ_i+\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}−\boldsymbol{\mu}^{(2)})-\mu_i\bigr)^2\Bigr]=\mathrm{E}\Bigl[\bigl(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c-(\boldsymbol{\alpha}^T\boldsymbol{\mu}^{(2)}+c)\bigr)^2\Bigr]\end{align}

を仮定する。それぞれの共分散は重相関係数の定理2の証明の(4)式より

\begin{align}\mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\geq \mathrm{E}\bigl[(X_i-\mu_i)\boldsymbol{\alpha}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\end{align}</div.であり、すなわち

\begin{align}\mathrm{Cov}\bigl(X_i,g(\boldsymbol{X}^{(2)})\bigr)\geq\mathrm{Cov}\bigl(X_i,h(\boldsymbol{X}^{(2)})\bigr)\end{align}

である。これを

\begin{align}\sqrt{\sigma_{ii}\mathrm{E}\Bigl[\bigl(X_i+\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)}))-\mu_i\bigr)^2\Bigr]}=\sqrt{\sigma_{ii}\mathrm{E}\Bigl[\bigl(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c-(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c)\bigr)^2\Bigr]}\end{align}

で割ることで

\begin{align}\cfrac{\mathrm{Cov}\bigl(X_i,g(\boldsymbol{X}^{(2)})\bigr)}{\sqrt{\sigma_{ii}\mathrm{E}\Bigl[\bigl(X_i+\boldsymbol{\beta}_{(i)}^T(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)}))-\mu_i\bigr)^2\Bigr]}}\geq\cfrac{\mathrm{Cov}\bigl(X_i,h(\boldsymbol{X}^{(2)})\bigr)}{\sqrt{\sigma_{ii}\mathrm{E}\Bigl[\bigl(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c-(\boldsymbol{\alpha}^T\boldsymbol{X}^{(2)}+c)\bigr)^2\Bigr]}}\end{align}

を得る。□

定理4 条件付き期待値の性質4

任意のベクトル値関数\(\boldsymbol{h}(\boldsymbol{x}^{(2)})\)に対して\begin{align}\label{eq2}\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]-\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{x}^{(2)}]\bigr)^T\Bigr]\tag{2}\end{align}が半正定値行列である。これは重相関係数の定理2定理2の一般化である。

証明 定理2と同様に

\begin{align}&\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\Bigr]\\&=\begin{pmatrix}\mathrm{E}\Bigl[\bigl(X_1-\mathrm{E}[X_1|\boldsymbol{X}^{(2)}]\bigr)h_1(\boldsymbol{X}^{(2)})\Bigr] & \cdots & \mathrm{E}\Bigl[\bigl(X_1-\mathrm{E}[X_1|\boldsymbol{X}^{(2)}]\bigr)h_q(\boldsymbol{X}^{(2)})\Bigr]\\\vdots &&\vdots\\\mathrm{E}\Bigl[\bigl(X_q-\mathrm{E}[X_q|\boldsymbol{X}^{(2)}]\bigr)h_1(\boldsymbol{X}^{(2)})\Bigr] &\cdots&\mathrm{E}\Bigl[\bigl(X_q-\mathrm{E}[X_q|\boldsymbol{X}^{(2)}]\bigr)h_q(\boldsymbol{X}^{(2)})\Bigr] \end{pmatrix}\end{align}

がいえる。この行列の各要素が、\(X_i\)と\(\boldsymbol{X}^{(2)}\)に対する\(X_i\)の残差と\(\boldsymbol{X}^{(2)}\)の任意の関数との積となっているので、

\begin{align}\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\Bigr]=\boldsymbol{0}\end{align}

である。次に定理3の予測二乗誤差と同様のことがいえることを示す。\eqref{eq2}の第1項について、次がいえる。

\begin{align}&\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\\\label{eq3}&=\mathrm{E}\bigl[\boldsymbol{X}^{(1)}\boldsymbol{X}^{(1)T}-2\boldsymbol{X}^{(1)}\boldsymbol{h}^T(\boldsymbol{X}^{(2)})+\boldsymbol{h}(\boldsymbol{X}^{(2)})\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\bigr].\tag{3}\end{align}

第2項と\(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\)について、次がいえる。

\begin{align}&\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{x}^{(2)}]\bigr)\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{x}^{(2)}]\bigr)^T\Bigr]\\&\ \ \ \ + \mathrm{E}\Bigl[\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\boldsymbol{X}^{(1)}\boldsymbol{X}^{(1)T}-2\boldsymbol{X}^{(1)}\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T+\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\\&\ \ \ \ + \mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T-2\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\boldsymbol{h}^T(\boldsymbol{X}^{(2)})+\boldsymbol{h}(\boldsymbol{X}^{(2)})\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\Bigr]\\&=\mathrm{E}\Bigl[\boldsymbol{X}^{(1)}\boldsymbol{X}^{(1)T}-2\boldsymbol{X}^{(1)}\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T+2\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\\\label{eq4}&\ \ \ \ -2\boldsymbol{X}^{(1)}\boldsymbol{h}^T(\boldsymbol{X}^{(2)})+\boldsymbol{h}(\boldsymbol{X}^{(2)})\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\Bigr].\tag{4}\end{align}

\eqref{eq3}\(=\)\eqref{eq4}とすると

\begin{align}&\mathrm{E}\bigl[\boldsymbol{X}^{(1)}\boldsymbol{X}^{(1)T}-2\boldsymbol{X}^{(1)}\boldsymbol{h}^T(\boldsymbol{X}^{(2)})+\boldsymbol{h}(\boldsymbol{X}^{(2)})\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\bigr]\\&=\mathrm{E}\Bigl[\boldsymbol{X}^{(1)}\boldsymbol{X}^{(1)T}-2\boldsymbol{X}^{(1)}\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T+2\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\\&\ \ \ \ -2\boldsymbol{X}^{(1)}\boldsymbol{h}^T(\boldsymbol{X}^{(2)})+\boldsymbol{h}(\boldsymbol{X}^{(2)})\boldsymbol{h}^T(\boldsymbol{X}^{(2)})\Bigr]\\&\Leftrightarrow  2\mathrm{E}\Bigl[\boldsymbol{X}^{(1)}\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]=\boldsymbol{0}\\&\Leftrightarrow \mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]=\boldsymbol{0}\end{align}

である必要があり、実際に

\begin{align}&\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\boldsymbol{X}^{(1\cdot2)}\bigl(\boldsymbol{\mu}^{(1)}+\boldsymbol{B}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr)^T\Bigr]\\&=\mathrm{E}[\boldsymbol{X}^{(1\cdot2)}\boldsymbol{\mu}^{(1)T}]+\mathrm{E}\bigl[\boldsymbol{X}^{(1\cdot2)}(\boldsymbol{X}^{(2)}-\boldsymbol{\mu}^{(2)})^T\bigr]\boldsymbol{B}^T\\&=\boldsymbol{0}+\boldsymbol{0}=\boldsymbol{0}\end{align}

がいえる。したがって

\begin{align}&\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\\&\ \ \ \ +\mathrm{E}\Bigl[\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\end{align}

が示せた。よって

\begin{align}&\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\\&\ \ \ \ -\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\\&=\mathrm{E}\Bigl[\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\end{align}

である。ここで\(\boldsymbol{z}\neq\boldsymbol{0}\)に対して次が成り立つ。

\begin{align}&\boldsymbol{z}^T\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{h}(\boldsymbol{X}^{(2)})\bigr)^T\Bigr]\\&\ \ \ \ -\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)\bigl(\boldsymbol{X}^{(1)}-\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{X}^{(2)}]\bigr)^T\Bigr]\boldsymbol{z}\\&=\sum_{j,k=1}^qz_jz_k\bigl(\mathrm{E}[X_j|\boldsymbol{X}^{(2)}]-h_j(\boldsymbol{X}^{(2)})\bigr)\bigl(\mathrm{E}[X_k|\boldsymbol{X}^{(2)}]-h_k(\boldsymbol{X}^{(2)})\bigr)\\&=\Bigl\{\sum_{j=1}^qz_j\bigl(\mathrm{E}[X_j|\boldsymbol{X}^{(2)}]-h_j(\boldsymbol{X}^{(2)})\bigr)\Bigr\}^2\\&\geq 0.\end{align}

よって\eqref{eq2}は半正定値行列である。□

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-多変量正規分布
-, ,