多変量正規分布の特異分布について

多変量正規分布の線形変換の分布

ここで次の任意の変換を考える。\begin{align}\label{eq1}\boldsymbol{Z} &= \boldsymbol{DX}, \tag{1}\end{align}ここに\(\boldsymbol{D}\)は\(q\)個の要素から成り\(\boldsymbol{D}\)は\(q\times q\)行列である。\(\boldsymbol{Z}\)の期待値は\begin{align}\label{eq2}\mathrm{E}[\boldsymbol{Z}]&=\boldsymbol{D\mu}\tag{2}\end{align}であり共分散行列は

\begin{align}\label{eq3}\mathrm{E}\bigl[(\boldsymbol{Z}-\boldsymbol{D\mu})(\boldsymbol{Z}-\boldsymbol{D\mu})^T\bigr]&=\boldsymbol{D\Sigma D }^T\tag{3}\end{align}

である。\eqref{eq2}、\eqref{eq3}は\(q=p\)かつ\(\boldsymbol{D}\)が正則行列である場合である。\(\boldsymbol{q\geq p}\)かつ\(\boldsymbol{D}\)が\(\mathrm{rank}(\boldsymbol{D})=q\)であるとき次を満たす\((p-q)\times p\)行列\(\boldsymbol{E}\)が存在する。

\begin{align}\label{eq4}\begin{pmatrix}\boldsymbol{Z}\\\boldsymbol{W}\end{pmatrix}&=\begin{pmatrix}\boldsymbol{D}\\\boldsymbol{E}\end{pmatrix}\boldsymbol{X}.\tag{4}\end{align}

これは\eqref{eq4}の線形変換が正則変化になるように\(\boldsymbol{D}\)と一時線形独立な\(\boldsymbol{E}\)を用いて\eqref{eq1}の条件を満たすように補填した。この操作により、\((\boldsymbol{Z}, \boldsymbol{W})^T\)の確率密度が定義される。よって\(\boldsymbol{Z}\)と\(\boldsymbol{W}\)は同時分布を持ち\(\boldsymbol{Z}\)は多変量正規分布の線形結合の分布・確率変数の独立性の定理3より周辺分布をもつ。このことからランクが\(q\)である\(\boldsymbol{D}\)に対して次の定理が示せた。

定理1　多変量正規分布の線形変換の分布

\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{Z}=\boldsymbol{DX}\)は\(N(\boldsymbol{D\mu}, \boldsymbol{D\Sigma D}^T)\)に従う。ここに\(\boldsymbol{D}\)は\(\mathrm{rank}(\boldsymbol{D}) = q\leq p\)の\(q\times p\)行列である。

多変量正規分布の特異分布（退化分布）

次に多変量正規分布の特異分布についてみていく。これは先ほどの定理1の拡張であり、特印分布とは\(p\)次元空間において\(p\)より低い次元の集合上に定義される分布である（先ほどの変換の\(p\)と\(q\)の大小関係を逆にした場合）。すなわち任意の集合が与えれられた集合に交わらない確率は\(0\)である（\(p\)次元における任意の集合は必ず低次元の集合として表される）。特異分布の場合、分布は与えられた線形集合に集まっている[すなわち、分布と\((p-1)\)次元徴兵メントの交差と考えられる]。\(\boldsymbol{y}\)を線形集合の座標の集合とする（座標の数は線形集合の次元と同じ）。このとき線形集合のパラメータによる\(\boldsymbol{x}\)の定義は\(\boldsymbol{x}=\boldsymbol{Ay}+\boldsymbol{\lambda}\)である。ここに\(\boldsymbol{A}\)は\(p\times q\)行列であり、\(\boldsymbol{\lambda}\)は\(p\)次元ベクトルである。\(\boldsymbol{Y}\)が\(q\)慈眼寺線形集合上で正規分布に従っていると仮定するすると、

\begin{align}\label{eq5}\boldsymbol{X}&=\boldsymbol{AY}+\boldsymbol{\lambda}\tag{5}\end{align}

は\(p\)次元空間上で特異（退化）分布に従うという。\(\mathrm{E}[\boldsymbol{Y}]=\boldsymbol{\nu}\)のとき、\(\mathrm{E}[\boldsymbol{X}]=\boldsymbol{A\nu}+\boldsymbol{\lambda}=\boldsymbol{\mu}\)とおく。\(\mathrm{E}[(\boldsymbol{Y}-\boldsymbol{\nu})(\boldsymbol{Y}-\boldsymbol{\nu})]=\boldsymbol{T}\)のとき、

\begin{align}&\mathrm{E}\bigl[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})\bigr]\\&=\mathrm{E}\Bigl[\bigl((\boldsymbol{AY}+\boldsymbol{\lambda})-(\boldsymbol{A\nu}+\boldsymbol{\lambda})\bigr)\bigl((\boldsymbol{AY}+\boldsymbol{\lambda})-(\boldsymbol{A\nu}+\boldsymbol{\lambda})\bigr)^T\Bigr]\\&=\mathrm{E}\bigl[(\boldsymbol{AY}-\boldsymbol{A\nu})(\boldsymbol{AY}-\boldsymbol{A\nu})^T\bigr]\\&=\mathrm{E}\bigl[\boldsymbol{A}(\boldsymbol{Y}-\boldsymbol{\nu})(\boldsymbol{Y}-\boldsymbol{\nu})^T\boldsymbol{A}^T\bigr]\\\label{eq6}&=\boldsymbol{ATA}^T=\boldsymbol{\Sigma},\tag{6}\end{align}

となる。行列のランクは行、列の線形独立なベクトルの最大個数である。したがって行列\(\boldsymbol{A}\)は\(p\times q\)行列であり、\(p>q\)のとき\(\mathrm{rank}(\boldsymbol{A})=q\)となり、\(\mathrm{rank}(\boldsymbol{\Sigma})=\mathrm{rank}(\boldsymbol{ATA}^T)\)は\(\mathrm{rank}(\boldsymbol{AT})=\mathrm{rank}(\boldsymbol{A})\)であり、\(\boldsymbol{ATA}^T\leq \mathrm{rank}(\boldsymbol{A})\)かつ

\(\mathrm{rank}(\boldsymbol{ATA}^T)\leq \mathrm{rank}(\boldsymbol{A}^T)\Rightarrow \mathrm{rank}(\boldsymbol{ATA}^T)\leq \mathrm{rank}(\boldsymbol{A})\)

である。よって共分散行列はランク落ちしている。すなわち、\(\boldsymbol{\Sigma}\)は非正則行列である。よって\(\boldsymbol{\Sigma}^{-1}\)が定義されないので、\(\boldsymbol{X}\)確率密度を定義できない。任意の集合が\(q\)次元集合と交わらない確率は\(0\)であることは、密度がほとんどいたるところで\(0\)を含んでいる。そのため\(\boldsymbol{X}\)は実際に密度を全くもたない。すなわち\((p-q)\)次元集合上に交わる確率が\(0\)であるため、その分布の密度を考えると、ほとんどいたるところで\(0\)である。例に2次元の場合、\(p=2\)、\(q=1\)とする。\((p-q)\)次元集合上に交わる確率が\(0\)であるとは、密度（体積）が面（面積）となっている。したがって、確率密度関数の定義を満たさないことがわかる。

\(\boldsymbol{Y}\)について仮定した場合とは逆に、\(\boldsymbol{X}\)が平均ベクトル\(\boldsymbol{\mu}\)、共分散行列\(\boldsymbol{\Sigma}\)をもつとき、\(\boldsymbol{X}\)は\eqref{eq5}の形で表される（確率\(0\)を除いて）。ここに\(\mathrm{rank}(\boldsymbol{\Sigma})=r\)、\(\boldsymbol{X}\)は任意の分布に従い、\(r(\leq p)\)個の要素から成る\(\boldsymbol{Y}\)は正規分布に従う。\(\boldsymbol{\Sigma}\)のランクは\(r\)であるとき、次を満たす\(p\times p\)正則行列\(\boldsymbol{B}\)が存在する。

\begin{align}\label{eq7}\boldsymbol{B\Sigma B}^T&=\begin{pmatrix}\boldsymbol{I}_r &\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{0},\tag{7}\end{pmatrix}\end{align}

ここに、単位行列\(\boldsymbol{I}_r\)は\(r\times r\)行列である。行列\(\boldsymbol{B}\)についての線形変換より、次が得られる。

\begin{align}\label{eq8}\boldsymbol{BX}&=\boldsymbol{V} = \begin{pmatrix}\boldsymbol{V}^{(1)}\\\boldsymbol{V}^{(2)}\end{pmatrix}.\tag{8}\end{align}

共分散行列\eqref{eq7}と次の平均ベクトルをもつ確率ベクトル\(\boldsymbol{V}\)を定義する。

\begin{align}\label{eq9}\mathrm{E}[\boldsymbol{V}]&=\boldsymbol{B\mu}=\boldsymbol{\nu}=\begin{pmatrix}\boldsymbol{\nu}^{(1)}\\\boldsymbol{\nu}^{(2)}\end{pmatrix}\tag{9}\end{align}

\(\boldsymbol{V}^{(2)}\)の各要素の分散は\eqref{eq6}より\(0\)であるので、

\(\mathrm{E}[(V_i^{(2)}-\nu_i^{(2)})^2]=0\Rightarrow V_i^{(2)}=\nu_i^{(2)}, i = r+1, \ldots, p\)

。よって確率\(1\)で\(\boldsymbol{V}^{(2)}=\boldsymbol{\nu}^{(2)}\)である。ここに\(\boldsymbol{B}^{-1}\)を次のように分割する。

\begin{align}\label{eq10}\boldsymbol{B}^{-1}&=\begin{pmatrix}\boldsymbol{C} &\boldsymbol{D}\end{pmatrix},\tag{10}\end{align}

ここに\(\boldsymbol{C}\)は\(r\)列から成る\(p\times r\)行列である。よって\eqref{eq8}は次の式と同じである。

\begin{align}\label{eq11}\boldsymbol{X}&=\boldsymbol{B}^{-1}\boldsymbol{V}=\begin{pmatrix}\boldsymbol{C}&\boldsymbol{D}\end{pmatrix}\begin{pmatrix}\boldsymbol{V}^{(1)}\\\boldsymbol{V}^{(2)}\end{pmatrix}=\boldsymbol{CV}^{(1)}+\boldsymbol{DV}^{(2)}\tag{11}\end{align}

これより、確率\(1\)で次がいえる。

\begin{align}\label{eq12}\boldsymbol{X}&=\boldsymbol{CV}^{(2)}\tag{12}\end{align}

これは\eqref{eq5}の\(\boldsymbol{A}\)が\(\boldsymbol{C}\)、\(\boldsymbol{Y}\)が\(\boldsymbol{V}^{(1)}\)、\(\boldsymbol{\lambda}\)が\(\boldsymbol{D\nu}^{(2)}\)のときである。

特異分布を含む正規分布の定義を与える。

定義1　多変量正規分布の特異分布

\eqref{eq5}の変換が存在するとき、平均ベクトル\(\mathrm{E}[\boldsymbol{X}]=\boldsymbol{\mu}\)、共分散行列\(\mathrm{E}[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^T]=\boldsymbol{\Sigma}\)をもつ\(p\)個の要素から成る確率ベクトル\(\boldsymbol{X}\)は正規分布に従っているという（または\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従っている）。ここに\(\boldsymbol{A}\)の行数は\(p\)、列数は\(\mathrm{rank}(\boldsymbol{\Sigma})=r\)、\(r\)個の要素から成る確率ベクトル\(\boldsymbol{Y}\)は特異分布に従っているとする。すなわち、次の密度をもつ。\begin{align}\label{eq13}ke^{-\frac{1}{2}(\boldsymbol{y}-\boldsymbol{\nu})^T\boldsymbol{T}^{-1}(\boldsymbol{y}-\boldsymbol{\nu})}.\tag{13}\end{align}

\(\boldsymbol{\Sigma}\)のランクが\(p\)であるとき、\(\boldsymbol{A}\)は\(\boldsymbol{I}\)に、\(\boldsymbol{\lambda}\)は\(\boldsymbol{0}\)に置き換えられることが明らかである。よって\(\boldsymbol{X}=\boldsymbol{Y}\)であり、定義1において冗長性を避けるために\(\boldsymbol{T}=\boldsymbol{I}\)、\(\boldsymbol{\nu}=\boldsymbol{0}\)としてもよい。

定理2　多変量正規分布の線形変換の分布（特異分布も含む）

\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{Z}=\boldsymbol{DX}\)は\(N(\boldsymbol{D\mu}, \boldsymbol{D\Sigma D}^T)\)に従う。

この定理は\(\boldsymbol{X}\)が特異分布に従うときと、\(\boldsymbol{D}\)が非正則、すなわち\(\mathrm{rank}(\boldsymbol{D})\leq q\)である場合を含む。\(\boldsymbol{X}\)は\eqref{eq1}で表されるので、\(\boldsymbol{Y}\)は\(N(\boldsymbol{\nu},\boldsymbol{T})\)に従う確率ベクトルとして、一般的に次の\(\boldsymbol{Z}\)で表される。

\begin{align}\label{eq14}\boldsymbol{Z} &= \boldsymbol{DAY} + \boldsymbol{D\lambda},\tag{14}\end{align}

ここに\(\boldsymbol{DA}\)は\(q\times r\)行列である。\(\boldsymbol{DA}\)のランクが\(r\)であるとき、\eqref{eq3}～\eqref{eq12}の場合と一致するので自明である。ランクが\(r\)より小さい場合、すなわち\(s<r\)であるとき、\(\boldsymbol{Z}\)の共分散行列は

\begin{align}\label{eq15}\boldsymbol{DATA}^T\boldsymbol{D}^T&=\boldsymbol{E},\tag{15}\end{align}

である。ここに\(\mathrm{rank}(\boldsymbol{E})=s\)である。統計学の線形代数より、\eqref{eq17}を満たすような次の正則行列が存在する。

\begin{align}\label{eq16}\boldsymbol{F} &= \begin{pmatrix}\boldsymbol{F}_1\\\boldsymbol{F}_2\end{pmatrix}.\tag{16}\end{align}

\begin{align}\boldsymbol{FEF}^T &= \begin{pmatrix}\boldsymbol{F}_1\boldsymbol{EF}_1^T & \boldsymbol{F}_1\boldsymbol{EF}_2^T\\\boldsymbol{F}_2\boldsymbol{EF}_1^T & \boldsymbol{F}_2\boldsymbol{EF}_2^T \end{pmatrix}\\&=\begin{pmatrix}\boldsymbol{F}_1\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_1^T & \boldsymbol{F}_1\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_2^T\\\boldsymbol{F}_2\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_1^T & \boldsymbol{F}_2\boldsymbol{DATA}^T\boldsymbol{D}^T\boldsymbol{F}_2^T\end{pmatrix}\\&=\begin{pmatrix}(\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T & (\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\\(\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T & (\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\end{pmatrix}\\\label{eq17}&=\begin{pmatrix}\boldsymbol{I}_s & \boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{0}\end{pmatrix}\tag{17}\end{align}

\(\boldsymbol{T}\)、\((\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T=\boldsymbol{I}_s\)は正定値行列であることから、正定値行列について#3の定理1の\(\boldsymbol{C}\)を\(\boldsymbol{T}\)、\(\boldsymbol{B}^T\)を\(\boldsymbol{F}_1\boldsymbol{DA}\)とすると、\(\boldsymbol{F}_1\boldsymbol{DA}\)のランクは\(s\)であることがいえる。また、\eqref{eq17}の対角成分\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\)は正定値行列\(\boldsymbol{T}\)についての\(\boldsymbol{F}_2\boldsymbol{DA}\)の各行の2次形式である。\(\boldsymbol{F}_2\boldsymbol{DA}\neq\boldsymbol{0}\)のとき、\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T>0\)より\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T=0\)となるのは、\(\boldsymbol{F}_2\boldsymbol{DA}\)の各行の成分が\(0\)であるとき、すなわち\(\boldsymbol{F}_2\boldsymbol{DA}=\boldsymbol{0}\)である。したがって、\(\boldsymbol{FZ}\)の共分散行列は\eqref{eq17}である。また、\(\boldsymbol{FZ}\)は次となる。

\begin{align}\label{eq18}\boldsymbol{FZ} &= \begin{pmatrix}\boldsymbol{F}_1\\\boldsymbol{F}_2\end{pmatrix}\boldsymbol{DAY}+\boldsymbol{FD\lambda} = \begin{pmatrix}\boldsymbol{F}_1\boldsymbol{DAY}\\\boldsymbol{0}\end{pmatrix}+\boldsymbol{FD\lambda} = \begin{pmatrix}\boldsymbol{U}_1\\\boldsymbol{0}\end{pmatrix}+\boldsymbol{FD\lambda},\tag{18}\end{align}

わかりやすいよう、\(\boldsymbol{U}_1\)は正則分布に従う確率ベクトルである。\(\boldsymbol{F}_1\boldsymbol{DAY}\)について、\(\boldsymbol{F}_1\boldsymbol{DAY}\)の共分散行列は\((\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T=\boldsymbol{I}_s\)であり、これは正則行列である。したがって\(\boldsymbol{F}_1\boldsymbol{DAY}\)は正則分布に従う。\(\boldsymbol{F}^{-1}=(\boldsymbol{G}_1\ \ \boldsymbol{G}_2)\)とする。このとき次がいえる。

\begin{align}\label{eq19}\boldsymbol{Z} &= \boldsymbol{F}^{-1}\boldsymbol{FZ} = \begin{pmatrix}\boldsymbol{G}_1 & \boldsymbol{G}_2\end{pmatrix}\begin{pmatrix}\boldsymbol{U}_1\\\boldsymbol{0}\end{pmatrix}+\boldsymbol{F}^{-1}\boldsymbol{FD\lambda}=\boldsymbol{G}_1\boldsymbol{U}_1 + \boldsymbol{D\lambda}\tag{19}\end{align}

これは\eqref{eq1}の特異分布の確率ベクトル表記の定義と一致する。□

線形変換に、以前述べた幾何学的解釈を適用することができる。\(\boldsymbol{Y}=\boldsymbol{CX}\)は線形変換（座標軸の変換）であるので\(\boldsymbol{Y}\)の密度は次の楕円体上で一定である。

\begin{align}\label{eq20}(\boldsymbol{y}-\boldsymbol{C\mu})^T(\boldsymbol{C\Sigma C}^T)^{-1}(\boldsymbol{y}-\boldsymbol{C\mu})=k.\tag{20}\end{align}

\(\boldsymbol{X}^{(1)}\)の周辺分布は\(\boldsymbol{X}\)の分布を最初の\(q\)個の座標軸を\(q\)次元空間へ投影したものである。一定な密度の曲面はまた、楕円体である。任意の線形結合への分布の投影は正規分布である。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-多変量正規分布
-多変量正規分布, 多変量解析, 統計学

comment コメントをキャンセル

: 多変量正規分布
多変量正規分布の最尤推定量の様々な導出法
様々な多変量正規分布の最尤推定量の導出方法をみていく。平均ベクトルと共分散行列で解説したコレスキー分解を用いた方法以外にも、スペクトル分解、帰納法、行列の微分を用いた導出方法をみていく。多変量正規 ...

: 多変量正規分布
標本平均ベクトル・標本共分散行列の有効性
標本母集団分布が多変量正規分布である場合の標本平均ベクトルと不偏標本共分散行列の性質についてみていく。ここでは標本平均ベクトルと不偏標本共分散行列の有効性を解説する。前回の十分性と完備性に続き、標 ...

: 多変量正規分布
標本平均ベクトルの分布
標本平均ベクトルの分布についてみていく。母集団分布が多変量正規分布である場合の標本平均ベクトルの従う分布を導出する。標本平均の分布で単変量の場合を見てきたが、これらの単変量の結果を多変量へと拡張し ...

: 多変量正規分布
多変量正規分布の平均ベクトルのミニマックス性
多変量正規分布の平均ベクトルのミニマックス性について解説する。推定量のミニマックス性の定義を与えて、平均ベクトルがミニマックスであることを示す。前回の平均ベクトルのベイズ推定量に続いてミニマックス ...

: 多変量正規分布
平均ベクトルと共分散行列の最尤推定量
多変量正規分布のパラメータである平均ベクトルと共分散行列の最尤推定量を導出する。単変量のときと同様に、平均ベクトルの最尤推定量は標本平均ベクトルとなり、共分散行列の差烏有推定量は標本共分散行列となる ...

多変量正規分布の線形結合の分布、確率変数の独立性

ブロック行列について#1

多変量正規分布の特異分布について

多変量正規分布の線形変換の分布

定理1 多変量正規分布の線形変換の分布

多変量正規分布の特異分布（退化分布）

定義1 多変量正規分布の特異分布

定理2 多変量正規分布の線形変換の分布（特異分布も含む）

定理1　多変量正規分布の線形変換の分布

定義1　多変量正規分布の特異分布

定理2　多変量正規分布の線形変換の分布（特異分布も含む）