多変量正規分布

多変量正規分布の特異分布について

  1. HOME >
  2. 多変量正規分布 >

多変量正規分布の特異分布について

スポンサーリンク

多変量正規分布の線形変換の分布

ここで次の任意の変換を考える。\begin{align}\label{eq1}\boldsymbol{Z} &= \boldsymbol{DX}, \tag{1}\end{align}ここに\(\boldsymbol{D}\)は\(q\)個の要素から成り\(\boldsymbol{D}\)は\(q\times q\)行列である。\(\boldsymbol{Z}\)の期待値は\begin{align}\label{eq2}\mathrm{E}[\boldsymbol{Z}]&=\boldsymbol{D\mu}\tag{2}\end{align}であり共分散行列は

\begin{align}\label{eq3}\mathrm{E}\bigl[(\boldsymbol{Z}-\boldsymbol{D\mu})(\boldsymbol{Z}-\boldsymbol{D\mu})^T\bigr]&=\boldsymbol{D\Sigma D }^T\tag{3}\end{align}

である。\eqref{eq2}、\eqref{eq3}は\(q=p\)かつ\(\boldsymbol{D}\)が正則行列である場合である。\(\boldsymbol{q\geq p}\)かつ\(\boldsymbol{D}\)が\(\mathrm{rank}(\boldsymbol{D})=q\)であるとき次を満たす\((p-q)\times p\)行列\(\boldsymbol{E}\)が存在する。

\begin{align}\label{eq4}\begin{pmatrix}\boldsymbol{Z}\\\boldsymbol{W}\end{pmatrix}&=\begin{pmatrix}\boldsymbol{D}\\\boldsymbol{E}\end{pmatrix}\boldsymbol{X}.\tag{4}\end{align}

これは\eqref{eq4}の線形変換が正則変化になるように\(\boldsymbol{D}\)と一時線形独立な\(\boldsymbol{E}\)を用いて\eqref{eq1}の条件を満たすように補填した。この操作により、\((\boldsymbol{Z}, \boldsymbol{W})^T\)の確率密度が定義される。よって\(\boldsymbol{Z}\)と\(\boldsymbol{W}\)は同時分布を持ち\(\boldsymbol{Z}\)は多変量正規分布の線形結合の分布・確率変数の独立性の定理3より周辺分布をもつ。このことからランクが\(q\)である\(\boldsymbol{D}\)に対して次の定理が示せた。

定理1 多変量正規分布の線形変換の分布

\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{Z}=\boldsymbol{DX}\)は\(N(\boldsymbol{D\mu}, \boldsymbol{D\Sigma D}^T)\)に従う。ここに\(\boldsymbol{D}\)は\(\mathrm{rank}(\boldsymbol{D}) = q\leq p\)の\(q\times p\)行列である。

多変量正規分布の特異分布(退化分布)

次に多変量正規分布の特異分布についてみていく。これは先ほどの定理1の拡張であり、特印分布とは\(p\)次元空間において\(p\)より低い次元の集合上に定義される分布である(先ほどの変換の\(p\)と\(q\)の大小関係を逆にした場合)。すなわち任意の集合が与えれられた集合に交わらない確率は\(0\)である(\(p\)次元における任意の集合は必ず低次元の集合として表される)。特異分布の場合、分布は与えられた線形集合に集まっている[すなわち、分布と\((p-1)\)次元徴兵メントの交差と考えられる]。\(\boldsymbol{y}\)を線形集合の座標の集合とする(座標の数は線形集合の次元と同じ)。このとき線形集合のパラメータによる\(\boldsymbol{x}\)の定義は\(\boldsymbol{x}=\boldsymbol{Ay}+\boldsymbol{\lambda}\)である。ここに\(\boldsymbol{A}\)は\(p\times q\)行列であり、\(\boldsymbol{\lambda}\)は\(p\)次元ベクトルである。\(\boldsymbol{Y}\)が\(q\)慈眼寺線形集合上で正規分布に従っていると仮定するすると、

\begin{align}\label{eq5}\boldsymbol{X}&=\boldsymbol{AY}+\boldsymbol{\lambda}\tag{5}\end{align}

は\(p\)次元空間上で特異(退化)分布に従うという。\(\mathrm{E}[\boldsymbol{Y}]=\boldsymbol{\nu}\)のとき、\(\mathrm{E}[\boldsymbol{X}]=\boldsymbol{A\nu}+\boldsymbol{\lambda}=\boldsymbol{\mu}\)とおく。\(\mathrm{E}[(\boldsymbol{Y}-\boldsymbol{\nu})(\boldsymbol{Y}-\boldsymbol{\nu})]=\boldsymbol{T}\)のとき、

\begin{align}&\mathrm{E}\bigl[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})\bigr]\\&=\mathrm{E}\Bigl[\bigl((\boldsymbol{AY}+\boldsymbol{\lambda})-(\boldsymbol{A\nu}+\boldsymbol{\lambda})\bigr)\bigl((\boldsymbol{AY}+\boldsymbol{\lambda})-(\boldsymbol{A\nu}+\boldsymbol{\lambda})\bigr)^T\Bigr]\\&=\mathrm{E}\bigl[(\boldsymbol{AY}-\boldsymbol{A\nu})(\boldsymbol{AY}-\boldsymbol{A\nu})^T\bigr]\\&=\mathrm{E}\bigl[\boldsymbol{A}(\boldsymbol{Y}-\boldsymbol{\nu})(\boldsymbol{Y}-\boldsymbol{\nu})^T\boldsymbol{A}^T\bigr]\\\label{eq6}&=\boldsymbol{ATA}^T=\boldsymbol{\Sigma},\tag{6}\end{align}

となる。行列のランクは行、列の線形独立なベクトルの最大個数である。したがって行列\(\boldsymbol{A}\)は\(p\times q\)行列であり、\(p>q\)のとき\(\mathrm{rank}(\boldsymbol{A})=q\)となり、\(\mathrm{rank}(\boldsymbol{\Sigma})=\mathrm{rank}(\boldsymbol{ATA}^T)\)は\(\mathrm{rank}(\boldsymbol{AT})=\mathrm{rank}(\boldsymbol{A})\)であり、\(\boldsymbol{ATA}^T\leq \mathrm{rank}(\boldsymbol{A})\)かつ

\(\mathrm{rank}(\boldsymbol{ATA}^T)\leq \mathrm{rank}(\boldsymbol{A}^T)\Rightarrow \mathrm{rank}(\boldsymbol{ATA}^T)\leq \mathrm{rank}(\boldsymbol{A})\)

である。よって共分散行列はランク落ちしている。すなわち、\(\boldsymbol{\Sigma}\)は非正則行列である。よって\(\boldsymbol{\Sigma}^{-1}\)が定義されないので、\(\boldsymbol{X}\)確率密度を定義できない。任意の集合が\(q\)次元集合と交わらない確率は\(0\)であることは、密度がほとんどいたるところで\(0\)を含んでいる。そのため\(\boldsymbol{X}\)は実際に密度を全くもたない。すなわち\((p-q)\)次元集合上に交わる確率が\(0\)であるため、その分布の密度を考えると、ほとんどいたるところで\(0\)である。例に2次元の場合、\(p=2\)、\(q=1\)とする。\((p-q)\)次元集合上に交わる確率が\(0\)であるとは、密度(体積)が面(面積)となっている。したがって、確率密度関数の定義を満たさないことがわかる。

\(\boldsymbol{Y}\)について仮定した場合とは逆に、\(\boldsymbol{X}\)が平均ベクトル\(\boldsymbol{\mu}\)、共分散行列\(\boldsymbol{\Sigma}\)をもつとき、\(\boldsymbol{X}\)は\eqref{eq5}の形で表される(確率\(0\)を除いて)。ここに\(\mathrm{rank}(\boldsymbol{\Sigma})=r\)、\(\boldsymbol{X}\)は任意の分布に従い、\(r(\leq p)\)個の要素から成る\(\boldsymbol{Y}\)は正規分布に従う。\(\boldsymbol{\Sigma}\)のランクは\(r\)であるとき、次を満たす\(p\times p\)正則行列\(\boldsymbol{B}\)が存在する。

\begin{align}\label{eq7}\boldsymbol{B\Sigma B}^T&=\begin{pmatrix}\boldsymbol{I}_r &\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{0},\tag{7}\end{pmatrix}\end{align}

ここに、単位行列\(\boldsymbol{I}_r\)は\(r\times r\)行列である。行列\(\boldsymbol{B}\)についての線形変換より、次が得られる。

\begin{align}\label{eq8}\boldsymbol{BX}&=\boldsymbol{V} = \begin{pmatrix}\boldsymbol{V}^{(1)}\\\boldsymbol{V}^{(2)}\end{pmatrix}.\tag{8}\end{align}

共分散行列\eqref{eq7}と次の平均ベクトルをもつ確率ベクトル\(\boldsymbol{V}\)を定義する。

\begin{align}\label{eq9}\mathrm{E}[\boldsymbol{V}]&=\boldsymbol{B\mu}=\boldsymbol{\nu}=\begin{pmatrix}\boldsymbol{\nu}^{(1)}\\\boldsymbol{\nu}^{(2)}\end{pmatrix}\tag{9}\end{align}

\(\boldsymbol{V}^{(2)}\)の各要素の分散は\eqref{eq6}より\(0\)であるので、

\(\mathrm{E}[(V_i^{(2)}-\nu_i^{(2)})^2]=0\Rightarrow V_i^{(2)}=\nu_i^{(2)}, i = r+1, \ldots, p\)

。よって確率\(1\)で\(\boldsymbol{V}^{(2)}=\boldsymbol{\nu}^{(2)}\)である。ここに\(\boldsymbol{B}^{-1}\)を次のように分割する。

\begin{align}\label{eq10}\boldsymbol{B}^{-1}&=\begin{pmatrix}\boldsymbol{C} &\boldsymbol{D}\end{pmatrix},\tag{10}\end{align}

ここに\(\boldsymbol{C}\)は\(r\)列から成る\(p\times r\)行列である。よって\eqref{eq8}は次の式と同じである。

\begin{align}\label{eq11}\boldsymbol{X}&=\boldsymbol{B}^{-1}\boldsymbol{V}=\begin{pmatrix}\boldsymbol{C}&\boldsymbol{D}\end{pmatrix}\begin{pmatrix}\boldsymbol{V}^{(1)}\\\boldsymbol{V}^{(2)}\end{pmatrix}=\boldsymbol{CV}^{(1)}+\boldsymbol{DV}^{(2)}\tag{11}\end{align}

これより、確率\(1\)で次がいえる。

\begin{align}\label{eq12}\boldsymbol{X}&=\boldsymbol{CV}^{(2)}\tag{12}\end{align}

これは\eqref{eq5}の\(\boldsymbol{A}\)が\(\boldsymbol{C}\)、\(\boldsymbol{Y}\)が\(\boldsymbol{V}^{(1)}\)、\(\boldsymbol{\lambda}\)が\(\boldsymbol{D\nu}^{(2)}\)のときである。

特異分布を含む正規分布の定義を与える。

定義1 多変量正規分布の特異分布

\eqref{eq5}の変換が存在するとき、平均ベクトル\(\mathrm{E}[\boldsymbol{X}]=\boldsymbol{\mu}\)、共分散行列\(\mathrm{E}[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^T]=\boldsymbol{\Sigma}\)をもつ\(p\)個の要素から成る確率ベクトル\(\boldsymbol{X}\)は正規分布に従っているという(または\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従っている)。ここに\(\boldsymbol{A}\)の行数は\(p\)、列数は\(\mathrm{rank}(\boldsymbol{\Sigma})=r\)、\(r\)個の要素から成る確率ベクトル\(\boldsymbol{Y}\)は特異分布に従っているとする。すなわち、次の密度をもつ。\begin{align}\label{eq13}ke^{-\frac{1}{2}(\boldsymbol{y}-\boldsymbol{\nu})^T\boldsymbol{T}^{-1}(\boldsymbol{y}-\boldsymbol{\nu})}.\tag{13}\end{align}

\(\boldsymbol{\Sigma}\)のランクが\(p\)であるとき、\(\boldsymbol{A}\)は\(\boldsymbol{I}\)に、\(\boldsymbol{\lambda}\)は\(\boldsymbol{0}\)に置き換えられることが明らかである。よって\(\boldsymbol{X}=\boldsymbol{Y}\)であり、定義1において冗長性を避けるために\(\boldsymbol{T}=\boldsymbol{I}\)、\(\boldsymbol{\nu}=\boldsymbol{0}\)としてもよい。

定理2 多変量正規分布の線形変換の分布(特異分布も含む)

\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{Z}=\boldsymbol{DX}\)は\(N(\boldsymbol{D\mu}, \boldsymbol{D\Sigma D}^T)\)に従う。

この定理は\(\boldsymbol{X}\)が特異分布に従うときと、\(\boldsymbol{D}\)が非正則、すなわち\(\mathrm{rank}(\boldsymbol{D})\leq q\)である場合を含む。\(\boldsymbol{X}\)は\eqref{eq1}で表されるので、\(\boldsymbol{Y}\)は\(N(\boldsymbol{\nu},\boldsymbol{T})\)に従う確率ベクトルとして、一般的に次の\(\boldsymbol{Z}\)で表される。

\begin{align}\label{eq14}\boldsymbol{Z} &= \boldsymbol{DAY} + \boldsymbol{D\lambda},\tag{14}\end{align}

ここに\(\boldsymbol{DA}\)は\(q\times r\)行列である。\(\boldsymbol{DA}\)のランクが\(r\)であるとき、\eqref{eq3}~\eqref{eq12}の場合と一致するので自明である。ランクが\(r\)より小さい場合、すなわち\(s<r\)であるとき、\(\boldsymbol{Z}\)の共分散行列は

\begin{align}\label{eq15}\boldsymbol{DATA}^T\boldsymbol{D}^T&=\boldsymbol{E},\tag{15}\end{align}

である。ここに\(\mathrm{rank}(\boldsymbol{E})=s\)である。統計学の線形代数より、\eqref{eq17}を満たすような次の正則行列が存在する。

\begin{align}\label{eq16}\boldsymbol{F} &= \begin{pmatrix}\boldsymbol{F}_1\\\boldsymbol{F}_2\end{pmatrix}.\tag{16}\end{align}
\begin{align}\boldsymbol{FEF}^T &= \begin{pmatrix}\boldsymbol{F}_1\boldsymbol{EF}_1^T & \boldsymbol{F}_1\boldsymbol{EF}_2^T\\\boldsymbol{F}_2\boldsymbol{EF}_1^T & \boldsymbol{F}_2\boldsymbol{EF}_2^T \end{pmatrix}\\&=\begin{pmatrix}\boldsymbol{F}_1\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_1^T & \boldsymbol{F}_1\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_2^T\\\boldsymbol{F}_2\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_1^T & \boldsymbol{F}_2\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_2^T\end{pmatrix}\\&=\begin{pmatrix}(\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T & (\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\\(\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T & (\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\end{pmatrix}\\\label{eq17}&=\begin{pmatrix}\boldsymbol{I}_s & \boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{0}\end{pmatrix}\tag{17}\end{align}

\(\boldsymbol{T}\)、\((\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T=\boldsymbol{I}_s\)は正定値行列であることから、正定値行列について#3の定理1の\(\boldsymbol{C}\)を\(\boldsymbol{T}\)、\(\boldsymbol{B}^T\)を\(\boldsymbol{F}_1\boldsymbol{DA}\)とすると、\(\boldsymbol{F}_1\boldsymbol{DA}\)のランクは\(s\)であることがいえる。また、\eqref{eq17}の対角成分\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\)は正定値行列\(\boldsymbol{T}\)についての\(\boldsymbol{F}_2\boldsymbol{DA}\)の各行の2次形式である。\(\boldsymbol{F}_2\boldsymbol{DA}\neq\boldsymbol{0}\)のとき、\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T>0\)より\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T=0\)となるのは、\(\boldsymbol{F}_2\boldsymbol{DA}\)の各行の成分が\(0\)であるとき、すなわち\(\boldsymbol{F}_2\boldsymbol{DA}=\boldsymbol{0}\)である。したがって、\(\boldsymbol{FZ}\)の共分散行列は\eqref{eq17}である。また、\(\boldsymbol{FZ}\)は次となる。

\begin{align}\label{eq18}\boldsymbol{FZ} &= \begin{pmatrix}\boldsymbol{F}_1\\\boldsymbol{F}_2\end{pmatrix}\boldsymbol{DAY}+\boldsymbol{FD\lambda} = \begin{pmatrix}\boldsymbol{F}_1\boldsymbol{DAY}\\\boldsymbol{0}\end{pmatrix}+\boldsymbol{FD\lambda} = \begin{pmatrix}\boldsymbol{U}_1\\\boldsymbol{0}\end{pmatrix}+\boldsymbol{FD\lambda},\tag{18}\end{align}

わかりやすいよう、\(\boldsymbol{U}_1\)は正則分布に従う確率ベクトルである。\(\boldsymbol{F}_1\boldsymbol{DAY}\)について、\(\boldsymbol{F}_1\boldsymbol{DAY}\)の共分散行列は\((\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T=\boldsymbol{I}_s\)であり、これは正則行列である。したがって\(\boldsymbol{F}_1\boldsymbol{DAY}\)は正則分布に従う。\(\boldsymbol{F}^{-1}=(\boldsymbol{G}_1\ \ \boldsymbol{G}_2)\)とする。このとき次がいえる。

\begin{align}\label{eq19}\boldsymbol{Z} &= \boldsymbol{F}^{-1}\boldsymbol{FZ} = \begin{pmatrix}\boldsymbol{G}_1 & \boldsymbol{G}_2\end{pmatrix}\begin{pmatrix}\boldsymbol{U}_1\\\boldsymbol{0}\end{pmatrix}+\boldsymbol{F}^{-1}\boldsymbol{FD\lambda}=\boldsymbol{G}_1\boldsymbol{U}_1 + \boldsymbol{D\lambda}\tag{19}\end{align}

これは\eqref{eq1}の特異分布の確率ベクトル表記の定義と一致する。□

線形変換に、以前述べた幾何学的解釈を適用することができる。\(\boldsymbol{Y}=\boldsymbol{CX}\)は線形変換(座標軸の変換)であるので\(\boldsymbol{Y}\)の密度は次の楕円体上で一定である。

\begin{align}\label{eq20}(\boldsymbol{y}-\boldsymbol{C\mu})^T(\boldsymbol{C\Sigma C}^T)^{-1}(\boldsymbol{y}-\boldsymbol{C\mu})=k.\tag{20}\end{align}

\(\boldsymbol{X}^{(1)}\)の周辺分布は\(\boldsymbol{X}\)の分布を最初の\(q\)個の座標軸を\(q\)次元空間へ投影したものである。一定な密度の曲面はまた、楕円体である。任意の線形結合への分布の投影は正規分布である。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-多変量正規分布
-, ,