多変量正規分布

平均ベクトルのベイズ推定量

  1. HOME >
  2. 多変量正規分布 >

平均ベクトルのベイズ推定量

スポンサーリンク

平均ベクトルのベイズ推定量についてみていく。

統計学における決定論を解説し、推定量がパラメータの事後分布の平均であるときに平均リスクが最小化されることを示す。

また、例として平均ベクトルの事後分布を求めていく。

決定論

観測値\(x\)は集合\(\boldsymbol{\Theta}\)の要素\(\theta\)に依存する分布\(\boldsymbol{P}_{\theta}\)をもつ確率変数\(X\)のサンプルとする。ここで集合\(D\)の中から\(d\)を決定することを考える。すなわち、定義域が\(X\)で地域が\(D\)である関数\(\delta(x)\)を導入する。また、\(X\)が\(\boldsymbol{P}_{\theta}\)に依存するときに\(d\)であると決定した際の損失を\(L(\theta, d)\)とすると、関数\(\delta(x)\)は次のリスク関数に基づき評価される。

\begin{align} \label{eq1} R(\theta, \delta) = \mathrm{E}_{\theta}[L\bigl(\theta, \delta(X)\bigr)]. \tag{1}\end{align}

例えば、\(d\)と\(\theta\)が単変量であるとき、損失関数は二乗誤差\(L(\theta , d) = (\theta - d)^2\)、リスクは平均二乗誤差\(\mathrm{E}_{\theta}[ \bigl(\delta(X) - \theta \bigr) ^2]\)とすることができる。

次にベイズ推定量の性質を述べるうえで必要な許容性についてみていく。次の不等式が成り立つとき、\(\delta(x)\)は\(\delta^*(x)\)と同じくらい良いと呼ぶ。

\begin{align}\label{eq2} R(\theta, \delta) \leq  R(\theta, \delta^*),\tag{2}\end{align}

また、\eqref{eq2}が等号を除いた狭義の不等式でのみ成り立つとき、\(\delta\)は\(\delta^*\)より良いと呼ぶ。\(\delta^*\)より良い\(\delta\)が存在するとき、\(\delta^*\)は非許容的であるという。逆に、存在しない場合、許容的であるという。

\(\delta\)が与えられたとき、リスク関数はパラメータの関数となる。パラメータに事前分布を割り当てることができる場合(すなわち確率密度\(\rho(\theta)\)を持つ場合)、\(\delta\)を用いた時の平均リスクは

\begin{align}\label{eq3} r(\rho, \delta) = \mathrm{E}_{\theta}[R(\theta, \delta)] = \mathrm{E}_{\rho}\Bigl[\mathrm{E}_{\theta}\bigl[ L \bigl(\theta, \delta(X)\bigr)\bigr]\Bigr]\tag{3}\end{align}

で与えられる。事前確率密度\(\rho\)が与えられているとする。このとき\(r(\rho, \delta)\)を最小化する\(\delta\)をベイズ推定量という。そして最小化した\(r(\rho, \delta)\)をベイズリスクと呼ぶ。一般的に、ベイズ推定量は許容的であり、許容的である場合ベイズ推定量またはベイズ推定量の極限である。パラメータ\(\theta\)が与えられたときの\(X\)の確率密度を\(f(x | \theta)\)とすると、\(X\)と\(\theta\)の同時確率密度は\(f(x, \theta) = f(x|\theta) \rho(\theta)\)であり、\(\delta\)の平均リスクは

\begin{align}r(\rho, \delta) &= \int_{\boldsymbol{\Theta}} \int_{X} L\bigl(\theta, \delta(x) \bigr) f(x|\theta) \rho(\theta) dxd\theta\\ \label{eq4} &= \int_X \left\{ \int_{\boldsymbol{\Theta}} L \bigl(\theta, \delta(x) \bigr)g (\theta | x) d\theta \right\} f(x)dx,\tag{4}\end{align}

ここに

\begin{gather}\label{eq5} f(x) = \int_{\boldsymbol{\Theta}} f(x | \theta) \rho(\theta)d\theta, \quad g(\theta | x) = \cfrac{f(x | \theta) \rho(\theta)}{f(x)}\tag{5} \end{gather}

はそれぞれ\(X\)の周辺分布、\(x\)が与えられたときの\(\theta\)の事後分布である。\(r(\rho, \delta)\)を最小化する\(\delta\)は、各\(x\)の値について\eqref{eq4}の中括弧の中を最小化するものである。すなわち、事後分布に関する\(L(\theta, \delta(x))\)の期待値を最小化するものである。\(\theta\)と\(d\)がベクトルであるとき、すなわち\(\boldsymbol{\theta}\)、\(\boldsymbol{d}\)であるとき損失関数は二次形式\(L(\boldsymbol{\theta}, \boldsymbol{d}) = (\boldsymbol{\theta} - \boldsymbol{d})^T\boldsymbol{Q}(\boldsymbol{\theta} - \boldsymbol{d})\)となる。ここに、\(\boldsymbol{Q}\)は正定値行列である。よって

\begin{align}\mathrm{E}_{\boldsymbol{\theta}| x} L\bigl( \boldsymbol{\theta}, \boldsymbol{d}(x)\bigr) &= \mathrm{E}_{\boldsymbol{\theta} | x}\Bigl[ \bigl(\boldsymbol{\theta} - \boldsymbol{d}(x)\bigr)^T\boldsymbol{Q}\bigl(\boldsymbol{\theta} - \boldsymbol{d}(x)\bigr)\Bigr]\\ &= \mathrm{E}_{\boldsymbol{\theta} | x}\Bigl[ \bigl\{ \bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr) + \bigl(\mathrm{E}[\boldsymbol{\theta}| x] - \boldsymbol{d}(x)\bigr) \bigr\}^T \boldsymbol{Q} \bigl\{ \bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr) + \bigl(\mathrm{E}[\boldsymbol{\theta}| x] - \boldsymbol{d}(x)\bigr) \bigr\}\Bigr]\\ &= \mathrm{E}_{\boldsymbol{\theta} | x}\Bigl[\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr)^T\boldsymbol{Q}\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr) + 2\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr)^T\boldsymbol{Q}\bigl( \mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr) \\ &\qquad\quad + \bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr)^T\boldsymbol{Q}\bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr)\Bigr]\\ &= \mathrm{E}_{\boldsymbol{\theta} | x}\Bigl[\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr)^T\boldsymbol{Q}\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr) + \bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr)^T\boldsymbol{Q}\bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr)\Bigr]\Bigr] \\&\qquad \quad+ 2\bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \mathrm{E}[\boldsymbol{\theta} | x]\bigr)^T\boldsymbol{Q}\bigl( \mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr) \\ \label{eq6}&= \mathrm{E}_{\boldsymbol{\theta} | x}\Bigl[\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr)^T\boldsymbol{Q}\bigl(\boldsymbol{\theta} - \mathrm{E}[\boldsymbol{\theta} | x]\bigr) + \bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr)^T\boldsymbol{Q}\bigl(\mathrm{E}[\boldsymbol{\theta} | x] - \boldsymbol{d}(x)\bigr)\Bigr]\Bigr] .\tag{6}\end{align}

\eqref{eq6}は事後分布の平均\(\boldsymbol{d}(x) = \mathrm{E}[\boldsymbol{\theta} | x]\)で最小値をとる。

平均ベクトルの事後分布

次に平均ベクトルの事後分布についてみていく。

定理平均ベクトルの事後分布

\(\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N\)は独立に\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従うとし、平均ベクトル\(\boldsymbol{\mu}\)は事前分布\(N(\boldsymbol{\nu}, \boldsymbol{\Phi})\)をもつとする。このとき\(\boldsymbol{x}_1, \ldots \boldsymbol{x}_N\)が与えられたときの\(\boldsymbol{\mu}\)の事後分布は次の平均

\begin{align}\label{eq7} \boldsymbol{\Phi}\left( \boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma} \right)^{-1} \bar{\boldsymbol{x}} + \cfrac{1}{N}\boldsymbol{\Sigma}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1} \boldsymbol{\nu}\tag{7}\end{align}

と共分散行列

\begin{align} \label{eq8} \boldsymbol{\Phi} - \boldsymbol{\Phi} \left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1} \boldsymbol{\Phi}\tag{8}\end{align}

をもつ正規分布に従う。

証明 \(\bar{\boldsymbol{x}}\)は\(\boldsymbol{\mu}\)の十分統計量であるため\(\bar{\boldsymbol{x}}\)のみ考える。今\(\bar{\boldsymbol{x}} = \boldsymbol{\mu} + \boldsymbol{v}\)で表現できる。ここに\(\boldsymbol{v}\)は\(N(\boldsymbol{0}, (1/ N)\boldsymbol{\Sigma})\)に従い、\(\boldsymbol{\mu}\)と独立である。補足として、平均ベクトルの分布が与えられていない場合

\begin{align}\mathrm{E}[\bar{\boldsymbol{x}}] &= \mathrm{E}[\boldsymbol{\mu} + \boldsymbol{v}] \\ &= \boldsymbol{\mu} + \boldsymbol{0} = \boldsymbol{\mu},\\  \mathrm{Var}[\boldsymbol{\mu} + \boldsymbol{v}] &= \boldsymbol{0} + \cfrac{1}{N} \boldsymbol{\Sigma} =\cfrac{1}{N} \boldsymbol{\Sigma} \end{align}

であるため、\(\bar{\boldsymbol{x}} \)を\(\boldsymbol{\mu} + \boldsymbol{v}\)で推測している。今

\begin{align}\mathrm{E}[\boldsymbol{\mu}] &= \boldsymbol{\nu},\\ \mathrm{E}[\bar{\boldsymbol{x}}] &=\mathrm{E}_{\boldsymbol{\theta} | \boldsymbol{x}}\bigl[ \mathrm{E}_{\boldsymbol{x}}[\boldsymbol{\mu} + \boldsymbol{v}]\bigr] = \boldsymbol{\nu},\\ \mathrm{Var}[\boldsymbol{\mu}] &= \boldsymbol{\Phi},\\ \mathrm{Var}[\bar{\boldsymbol{x}}] &= \mathrm{Var}_{\boldsymbol{\theta} | \boldsymbol{x}}[\boldsymbol{\mu}] \mathrm{Var}_{\boldsymbol{x}}[\boldsymbol{v}] = \boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma},\\ \mathrm{Cov}[\boldsymbol{\mu}, \bar{\boldsymbol{x}}] &= \mathrm{E}_{\boldsymbol{\theta}| \boldsymbol{x}}\bigl[\mathrm{E}_{\boldsymbol{x}}[\boldsymbol{\mu}^T \bar{\boldsymbol{x}}]\bigr] - \mathrm{E}_{\boldsymbol{\theta} | \boldsymbol{x}}[\boldsymbol{\mu}]^T\mathrm{E}_{\boldsymbol{x}}[\bar{\boldsymbol{x}}] \\&=  \mathrm{E}_{\boldsymbol{\theta}| \boldsymbol{x}}[\boldsymbol{\mu}^T\boldsymbol{\mu} ]] +\mathrm{E}_{\boldsymbol{\theta}| \boldsymbol{x}}[\boldsymbol{\mu}] \mathrm{E}_{\boldsymbol{x}}[\boldsymbol{v}] - \boldsymbol{\nu}^T\boldsymbol{\nu} \\ &=  \mathrm{E}_{\boldsymbol{\theta}| \boldsymbol{x}}[\boldsymbol{\mu}^T\boldsymbol{\mu} ]]  - \boldsymbol{\nu}^T\boldsymbol{\nu}=\boldsymbol{\Phi}.\end{align}

であるため、\(\boldsymbol{\mu}\)と\(\bar{\boldsymbol{X}}\)の同時分布は

\begin{align} \label{eq9} N\left( \begin{pmatrix}\boldsymbol{\nu}\\ \boldsymbol{\nu}\end{pmatrix}, \begin{pmatrix}\boldsymbol{\Phi} &\boldsymbol{\Phi} \\ \boldsymbol{\Phi} & \boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\end{pmatrix}\right).\tag{9}\end{align}

である。故に、多変量正規分布の条件付き分布より、\(\bar{\boldsymbol{x}}\)が与えられたときの\(\boldsymbol{\mu}\)の条件付き分布の平均は

\begin{align}\label{eq10} \boldsymbol{\nu} + \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1} (\bar{\boldsymbol{x}} - \boldsymbol{\nu}). \tag{10}\end{align}

次のように変形することで\eqref{eq7}の\(\boldsymbol{\mu}\)の事後平均を得ることができる。

\begin{align}\boldsymbol{\nu} + \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1} (\bar{\boldsymbol{x}} - \boldsymbol{\nu}) &=\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1} \boldsymbol{\nu} + \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1} (\bar{\boldsymbol{x}} - \boldsymbol{\nu}) \\ &= \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\boldsymbol{\nu} + \cfrac{1}{N}\boldsymbol{\Sigma}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\boldsymbol{\nu}\\ &\quad+ \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\bar{\boldsymbol{x}} + \cfrac{1}{N} \boldsymbol{\Sigma}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\boldsymbol{\nu}\\ &= \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\bar{\boldsymbol{x}} + \cfrac{1}{N}\boldsymbol{\Sigma}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\boldsymbol{\nu}.\end{align}

また、同様に\(\bar{\boldsymbol{x}}\)あ与えられたときの\(\boldsymbol{\mu}\)の条件付き分布の共分散行列は

\begin{align}\boldsymbol{\Phi} - \boldsymbol{\Phi}\left(\boldsymbol{\Phi} + \cfrac{1}{N}\boldsymbol{\Sigma}\right)^{-1}\boldsymbol{\Phi}.\end{align}

定理 平均ベクトルのベイズ推定量

平均ベクトルのベイズ推定量

\(\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N\)が独立に\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従い、\(\boldsymbol{\mu}\)が事前分布\(N(\boldsymbol{\nu}, \boldsymbol{\Phi})\)に従い、損失関数が\((\boldsymbol{d} - \boldsymbol{\mu})^T\boldsymbol{Q}(\boldsymbol{d} - \boldsymbol{\mu})\)であるとき、\(\boldsymbol{\mu}\)のベイズ推定量は\eqref{eq7}で与えられる。

ベイズ推定量は\(\bar{\boldsymbol{x}}\)と\(\boldsymbol{\mu}\)の事前分布の平均\(\nu\)の重み付き平均の一種である。\((1/N)\boldsymbol{\Sigma}\)が\(\boldsymbol{\Phi}\)に比べて小さいとき、すなわち、\(N\)が大きいとき\(\boldsymbol{\nu}\)の重みは小さくなる。\(\boldsymbol{\Phi}\)が大きいとき、すなわち事前分布の情報が比較的に少ないとき、\(\bar{\boldsymbol{x}}\)の重みが大きくなる。実際に、\(\boldsymbol{\Phi}^{-1} \to \boldsymbol{0}\)のとき、\(\boldsymbol{\Phi}\)の各成分は無限大となることから、推定量は\(\bar{\boldsymbol{x}}\)に近づく。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-多変量正規分布
-,