多変量正規分布の線形変換の分布
ここで次の任意の変換を考える。\begin{align}\label{eq1}\boldsymbol{Z} &= \boldsymbol{DX}, \tag{1}\end{align}ここに\(\boldsymbol{D}\)は\(q\)個の要素から成り\(\boldsymbol{D}\)は\(q\times q\)行列である。\(\boldsymbol{Z}\)の期待値は\begin{align}\label{eq2}\mathrm{E}[\boldsymbol{Z}]&=\boldsymbol{D\mu}\tag{2}\end{align}であり共分散行列は
である。\eqref{eq2}、\eqref{eq3}は\(q=p\)かつ\(\boldsymbol{D}\)が正則行列である場合である。\(\boldsymbol{q\geq p}\)かつ\(\boldsymbol{D}\)が\(\mathrm{rank}(\boldsymbol{D})=q\)であるとき次を満たす\((p-q)\times p\)行列\(\boldsymbol{E}\)が存在する。
これは\eqref{eq4}の線形変換が正則変化になるように\(\boldsymbol{D}\)と一時線形独立な\(\boldsymbol{E}\)を用いて\eqref{eq1}の条件を満たすように補填した。この操作により、\((\boldsymbol{Z}, \boldsymbol{W})^T\)の確率密度が定義される。よって\(\boldsymbol{Z}\)と\(\boldsymbol{W}\)は同時分布を持ち\(\boldsymbol{Z}\)は多変量正規分布の線形結合の分布・確率変数の独立性の定理3より周辺分布をもつ。このことからランクが\(q\)である\(\boldsymbol{D}\)に対して次の定理が示せた。
定理1 多変量正規分布の線形変換の分布
\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{Z}=\boldsymbol{DX}\)は\(N(\boldsymbol{D\mu}, \boldsymbol{D\Sigma D}^T)\)に従う。ここに\(\boldsymbol{D}\)は\(\mathrm{rank}(\boldsymbol{D}) = q\leq p\)の\(q\times p\)行列である。
多変量正規分布の特異分布(退化分布)
次に多変量正規分布の特異分布についてみていく。これは先ほどの定理1の拡張であり、特印分布とは\(p\)次元空間において\(p\)より低い次元の集合上に定義される分布である(先ほどの変換の\(p\)と\(q\)の大小関係を逆にした場合)。すなわち任意の集合が与えれられた集合に交わらない確率は\(0\)である(\(p\)次元における任意の集合は必ず低次元の集合として表される)。特異分布の場合、分布は与えられた線形集合に集まっている[すなわち、分布と\((p-1)\)次元徴兵メントの交差と考えられる]。\(\boldsymbol{y}\)を線形集合の座標の集合とする(座標の数は線形集合の次元と同じ)。このとき線形集合のパラメータによる\(\boldsymbol{x}\)の定義は\(\boldsymbol{x}=\boldsymbol{Ay}+\boldsymbol{\lambda}\)である。ここに\(\boldsymbol{A}\)は\(p\times q\)行列であり、\(\boldsymbol{\lambda}\)は\(p\)次元ベクトルである。\(\boldsymbol{Y}\)が\(q\)慈眼寺線形集合上で正規分布に従っていると仮定するすると、
は\(p\)次元空間上で特異(退化)分布に従うという。\(\mathrm{E}[\boldsymbol{Y}]=\boldsymbol{\nu}\)のとき、\(\mathrm{E}[\boldsymbol{X}]=\boldsymbol{A\nu}+\boldsymbol{\lambda}=\boldsymbol{\mu}\)とおく。\(\mathrm{E}[(\boldsymbol{Y}-\boldsymbol{\nu})(\boldsymbol{Y}-\boldsymbol{\nu})]=\boldsymbol{T}\)のとき、
となる。行列のランクは行、列の線形独立なベクトルの最大個数である。したがって行列\(\boldsymbol{A}\)は\(p\times q\)行列であり、\(p>q\)のとき\(\mathrm{rank}(\boldsymbol{A})=q\)となり、\(\mathrm{rank}(\boldsymbol{\Sigma})=\mathrm{rank}(\boldsymbol{ATA}^T)\)は\(\mathrm{rank}(\boldsymbol{AT})=\mathrm{rank}(\boldsymbol{A})\)であり、\(\boldsymbol{ATA}^T\leq \mathrm{rank}(\boldsymbol{A})\)かつ
である。よって共分散行列はランク落ちしている。すなわち、\(\boldsymbol{\Sigma}\)は非正則行列である。よって\(\boldsymbol{\Sigma}^{-1}\)が定義されないので、\(\boldsymbol{X}\)確率密度を定義できない。任意の集合が\(q\)次元集合と交わらない確率は\(0\)であることは、密度がほとんどいたるところで\(0\)を含んでいる。そのため\(\boldsymbol{X}\)は実際に密度を全くもたない。すなわち\((p-q)\)次元集合上に交わる確率が\(0\)であるため、その分布の密度を考えると、ほとんどいたるところで\(0\)である。例に2次元の場合、\(p=2\)、\(q=1\)とする。\((p-q)\)次元集合上に交わる確率が\(0\)であるとは、密度(体積)が面(面積)となっている。したがって、確率密度関数の定義を満たさないことがわかる。
\(\boldsymbol{Y}\)について仮定した場合とは逆に、\(\boldsymbol{X}\)が平均ベクトル\(\boldsymbol{\mu}\)、共分散行列\(\boldsymbol{\Sigma}\)をもつとき、\(\boldsymbol{X}\)は\eqref{eq5}の形で表される(確率\(0\)を除いて)。ここに\(\mathrm{rank}(\boldsymbol{\Sigma})=r\)、\(\boldsymbol{X}\)は任意の分布に従い、\(r(\leq p)\)個の要素から成る\(\boldsymbol{Y}\)は正規分布に従う。\(\boldsymbol{\Sigma}\)のランクは\(r\)であるとき、次を満たす\(p\times p\)正則行列\(\boldsymbol{B}\)が存在する。
ここに、単位行列\(\boldsymbol{I}_r\)は\(r\times r\)行列である。行列\(\boldsymbol{B}\)についての線形変換より、次が得られる。
共分散行列\eqref{eq7}と次の平均ベクトルをもつ確率ベクトル\(\boldsymbol{V}\)を定義する。
\(\boldsymbol{V}^{(2)}\)の各要素の分散は\eqref{eq6}より\(0\)であるので、
。よって確率\(1\)で\(\boldsymbol{V}^{(2)}=\boldsymbol{\nu}^{(2)}\)である。ここに\(\boldsymbol{B}^{-1}\)を次のように分割する。
ここに\(\boldsymbol{C}\)は\(r\)列から成る\(p\times r\)行列である。よって\eqref{eq8}は次の式と同じである。
これより、確率\(1\)で次がいえる。
これは\eqref{eq5}の\(\boldsymbol{A}\)が\(\boldsymbol{C}\)、\(\boldsymbol{Y}\)が\(\boldsymbol{V}^{(1)}\)、\(\boldsymbol{\lambda}\)が\(\boldsymbol{D\nu}^{(2)}\)のときである。
特異分布を含む正規分布の定義を与える。
定義1 多変量正規分布の特異分布
\eqref{eq5}の変換が存在するとき、平均ベクトル\(\mathrm{E}[\boldsymbol{X}]=\boldsymbol{\mu}\)、共分散行列\(\mathrm{E}[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^T]=\boldsymbol{\Sigma}\)をもつ\(p\)個の要素から成る確率ベクトル\(\boldsymbol{X}\)は正規分布に従っているという(または\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従っている)。ここに\(\boldsymbol{A}\)の行数は\(p\)、列数は\(\mathrm{rank}(\boldsymbol{\Sigma})=r\)、\(r\)個の要素から成る確率ベクトル\(\boldsymbol{Y}\)は特異分布に従っているとする。すなわち、次の密度をもつ。\begin{align}\label{eq13}ke^{-\frac{1}{2}(\boldsymbol{y}-\boldsymbol{\nu})^T\boldsymbol{T}^{-1}(\boldsymbol{y}-\boldsymbol{\nu})}.\tag{13}\end{align}
\(\boldsymbol{\Sigma}\)のランクが\(p\)であるとき、\(\boldsymbol{A}\)は\(\boldsymbol{I}\)に、\(\boldsymbol{\lambda}\)は\(\boldsymbol{0}\)に置き換えられることが明らかである。よって\(\boldsymbol{X}=\boldsymbol{Y}\)であり、定義1において冗長性を避けるために\(\boldsymbol{T}=\boldsymbol{I}\)、\(\boldsymbol{\nu}=\boldsymbol{0}\)としてもよい。
定理2 多変量正規分布の線形変換の分布(特異分布も含む)
\(\boldsymbol{X}\)が\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従っているとき、\(\boldsymbol{Z}=\boldsymbol{DX}\)は\(N(\boldsymbol{D\mu}, \boldsymbol{D\Sigma D}^T)\)に従う。
この定理は\(\boldsymbol{X}\)が特異分布に従うときと、\(\boldsymbol{D}\)が非正則、すなわち\(\mathrm{rank}(\boldsymbol{D})\leq q\)である場合を含む。\(\boldsymbol{X}\)は\eqref{eq1}で表されるので、\(\boldsymbol{Y}\)は\(N(\boldsymbol{\nu},\boldsymbol{T})\)に従う確率ベクトルとして、一般的に次の\(\boldsymbol{Z}\)で表される。
ここに\(\boldsymbol{DA}\)は\(q\times r\)行列である。\(\boldsymbol{DA}\)のランクが\(r\)であるとき、\eqref{eq3}~\eqref{eq12}の場合と一致するので自明である。ランクが\(r\)より小さい場合、すなわち\(s<r\)であるとき、\(\boldsymbol{Z}\)の共分散行列は
である。ここに\(\mathrm{rank}(\boldsymbol{E})=s\)である。統計学の線形代数より、\eqref{eq17}を満たすような次の正則行列が存在する。
\(\boldsymbol{T}\)、\((\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T=\boldsymbol{I}_s\)は正定値行列であることから、正定値行列について#3の定理1の\(\boldsymbol{C}\)を\(\boldsymbol{T}\)、\(\boldsymbol{B}^T\)を\(\boldsymbol{F}_1\boldsymbol{DA}\)とすると、\(\boldsymbol{F}_1\boldsymbol{DA}\)のランクは\(s\)であることがいえる。また、\eqref{eq17}の対角成分\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T\)は正定値行列\(\boldsymbol{T}\)についての\(\boldsymbol{F}_2\boldsymbol{DA}\)の各行の2次形式である。\(\boldsymbol{F}_2\boldsymbol{DA}\neq\boldsymbol{0}\)のとき、\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T>0\)より\((\boldsymbol{F}_2\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_2\boldsymbol{DA})^T=0\)となるのは、\(\boldsymbol{F}_2\boldsymbol{DA}\)の各行の成分が\(0\)であるとき、すなわち\(\boldsymbol{F}_2\boldsymbol{DA}=\boldsymbol{0}\)である。したがって、\(\boldsymbol{FZ}\)の共分散行列は\eqref{eq17}である。また、\(\boldsymbol{FZ}\)は次となる。
わかりやすいよう、\(\boldsymbol{U}_1\)は正則分布に従う確率ベクトルである。\(\boldsymbol{F}_1\boldsymbol{DAY}\)について、\(\boldsymbol{F}_1\boldsymbol{DAY}\)の共分散行列は\((\boldsymbol{F}_1\boldsymbol{DA})\boldsymbol{T}(\boldsymbol{F}_1\boldsymbol{DA})^T=\boldsymbol{I}_s\)であり、これは正則行列である。したがって\(\boldsymbol{F}_1\boldsymbol{DAY}\)は正則分布に従う。\(\boldsymbol{F}^{-1}=(\boldsymbol{G}_1\ \ \boldsymbol{G}_2)\)とする。このとき次がいえる。
これは\eqref{eq1}の特異分布の確率ベクトル表記の定義と一致する。□
線形変換に、以前述べた幾何学的解釈を適用することができる。\(\boldsymbol{Y}=\boldsymbol{CX}\)は線形変換(座標軸の変換)であるので\(\boldsymbol{Y}\)の密度は次の楕円体上で一定である。
\(\boldsymbol{X}^{(1)}\)の周辺分布は\(\boldsymbol{X}\)の分布を最初の\(q\)個の座標軸を\(q\)次元空間へ投影したものである。一定な密度の曲面はまた、楕円体である。任意の線形結合への分布の投影は正規分布である。