多変量正規分布の条件付き分布

条件付き分布

正規分布から求まる条件付き分布は正規性をもつ。条件付き分布の平均
は与えられた変数に対し線形的に依存し、分散、共分散は与えられた変数に全く依存しないことがわかる。故に条件付き分布は特に単純かつ自然な分布をもつことがわかる。

\(\boldsymbol{X}\)は\(N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)に従う確率ベクトルとする。次のように\(\boldsymbol{X}\)を\(q\)個と\(p-q\)個の集合に分割する。

\begin{align}\label{eq1}\boldsymbol{X} = \begin{pmatrix}\boldsymbol{X}^{(1)}\\\boldsymbol{X}^{(2)}\end{pmatrix}\tag{1}\end{align}

ここで多変量正規分布の線形結合の分布、確率変数の独立性における線形変換を用いる。\(\boldsymbol{Y}^{(1)}=\boldsymbol{X}^{(1)}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{X}^{(2)}\)と\(\boldsymbol{Y}^{(2)}=\boldsymbol{X}^{(2)}\)の確率密度関数は次で与えられる。

\begin{align}n(\boldsymbol{y}^{(1)}|\boldsymbol{\mu}^{(1)}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\mu}^{(2)}, \boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21})n(\boldsymbol{y}^{(2)}|\boldsymbol{\mu}^{(2)},\boldsymbol{\Sigma}_{22}).\end{align}

\(\boldsymbol{X}^{(1)}\)と\(\boldsymbol{X}^{(2)}\)の同時密度関数は\(\boldsymbol{y}^{(1)}=\boldsymbol{x}^{(1)}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{x}^{(2)}, \boldsymbol{y}^{(2)}=\boldsymbol{x}^{(2)}\)を逆変換することで得られる（この逆変換のヤコビアンは\(1\)である）。その結果\(\boldsymbol{X}^{(1)}\)と\(\boldsymbol{X}^{(2)}\)の同時密度関数は

\begin{align}f(\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2)})&=\cfrac{1}{(2\pi)^{\frac{1}{2}q}\sqrt{|\boldsymbol{\Sigma}_{11\cdot2}}}|\exp\biggl\{-\tfrac{1}{2}\bigl[(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}(\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]^T\\&\ \ \ \ \cdot\boldsymbol{\Sigma}_{11\cdot2}\bigl[(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}(\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\biggr\}\\\label{eq2}&\ \ \ \ \cdot\cfrac{1}{(2\pi)^{\frac{1}{2}(p-q)}\sqrt{|\boldsymbol{\Sigma}_{22}|}}\exp\left[-\tfrac{1}{2}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})^T\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\right]\tag{2}\end{align}

である。ここに\begin{align}\label{eq3}\boldsymbol{\Sigma}_{11\cdot2} = \boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}\tag{3}\end{align}とする。この密度関数は\(n(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})\)である。\(\boldsymbol{X}^{(2)}=\boldsymbol{x}^{(2)}\)が与えられたときの\(\boldsymbol{X}^{(1)}\)の条件付き密度関数は\eqref{eq2}を\(\boldsymbol{X}^{(2)}\)の周辺密度関数\(n(\boldsymbol{x}^{(2)}|\boldsymbol{\mu}^{(2)},\boldsymbol{\Sigma}_{22})\)で割ったものである。したがって条件付き密度関数は

\begin{align}f(\boldsymbol{x}^{(1)}|\boldsymbol{x}^{(2)})&=\cfrac{q}{(2\pi)^{\frac{1}{2}q}\sqrt{|\boldsymbol{\Sigma}_{11\cdot2}|}}\exp\biggl\{-\tfrac{1}{2}\bigl[(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]^T\\\label{eq4}&\ \ \ \ \cdot\boldsymbol{\Sigma}_{11\cdot2}\bigl[(\boldsymbol{x}^{(1)}-\boldsymbol{\mu}^{(1)})-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\bigr]\biggr\}.\tag{4}\end{align}

\(\boldsymbol{x}^{(2)}\)は\(p-q\)個の要素から成るのが分かるので、密度関数\(f(\boldsymbol{x}^{(1)}|\boldsymbol{x}^{(2)})\)は\(q\)変量正規分布の密度関数であり、平均ベクトルは

\begin{align}\label{eq5}\mathrm{E}[\boldsymbol{X}^{(1)}|\boldsymbol{x}^{(2)}]=\boldsymbol{\mu}^{(1)}+\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})=\boldsymbol{\nu}(\boldsymbol{x}^{(2)})\tag{5}\end{align}

であり、共分散行列

\begin{align}\label{eq6}\mathrm{E}\Bigl[\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{\nu}(\boldsymbol{x}^{(2)})\bigr)\bigl(\boldsymbol{X}^{(1)}-\boldsymbol{\nu}(\boldsymbol{x}^{(2)})\bigr)|\boldsymbol{x}^{(2)}\Bigr]=\boldsymbol{\Sigma}_{11\cdot2}=\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}.\tag{6}\end{align}

はである。\(\boldsymbol{x}^{(2)}\)が与えられたときの\(\boldsymbol{X}^{(1)}\)の平均は\(\boldsymbol{x}^{(2)}\)の線形関数となり、共分散行列は\(\boldsymbol{x}^{(2)}\)に依存しない。

定義1　回帰係数行列

行列\(\boldsymbol{B}=\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\)は\(\boldsymbol{x}^{(2)}\)に対する\(\boldsymbol{X}^{(1)}\)の回帰係数行列という。

\(\boldsymbol{B}=\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\)の\(i\)行目\(k-q\)列目の要素は次で示される。

\begin{align}\label{eq7} \beta_{ik\cdot q+1,\ldots, k-1,k+1,\ldots,p}\ \ \ \ i=1,\ldots,q\ \ \ \ k=q+1,\ldots,p.\tag{7}\end{align}

補足　 \begin{align}\boldsymbol{B}&=\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\\&=\begin{pmatrix}\sigma_{1,q+1}&\cdots &\sigma_{1p}\\\vdots&&\vdots\\\sigma_{q,q+1}&\cdots&\sigma_{qp}\end{pmatrix}\begin{pmatrix}\sigma_{q+1.q+1}&\cdots&\sigma_{q+1,k}&\cdots&\sigma_{q+1,p}\\\vdots&&\vdots&&\vdots\\\sigma_{p,q+1}&\cdots&\sigma_{pk}&\cdots&\sigma_{pp}\end{pmatrix}^{-1}\\&=\begin{pmatrix}\beta_{11}&\cdots&\beta_{1,k-q}&\cdots&\beta_{1,p-q}\\\vdots&&\vdots&&\vdots\\\beta_{q1}&\cdots&\beta_{q,k-q}&\cdots&\beta_{q,p-q}\end{pmatrix}\end{align}

また\(\boldsymbol{\mu}^{(1)}+\boldsymbol{B}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\)は回帰関数と呼ぶ。

\(\sigma_{ij\cdot q+1,\ldots,p}\)を\(\boldsymbol{\Sigma}_{11\cdot2}\)の\(i\)行目\(j\)列目とする。\(\sigma_{ii\cdot q+1,\ldots,p}\)を偏分散と呼ぶ。

定義2　偏相関係数

\begin{align}\label{eq8}\rho_{ij\cdot q+1,\ldots,p}=\cfrac{\sigma_{ij\cdot q+1,\ldots,p}}{\sqrt{\sigma_{ii\cdot q+1,\ldots,p}}\sqrt{\sigma_{jj\cdot q+1,\ldots,p}}}\tag{8}\end{align}

を\(X_{q+1},\ldots,X_{p}\)を固定したときの\(X_i\)と\(X_j\)の偏相関係数という。

\(\boldsymbol{X}\)の要素の添え字と\(q\)は任意であるので、任意の\(p-q\)個の要素を与えた時の他の\(q\)個の\(\boldsymbol{X}\)の要素の条件付き分布が定義される。実際に\(\boldsymbol{X}\)の任意の\(r\)個の要素の周辺分布が考えられ、\(r-q\)個の要素を与えた時の他の\(q\)個の\(\boldsymbol{X}\)の要素の条件付き分布が定義できる。

定理1　多変量正規分布の条件付き分布

\(\boldsymbol{X}\)の要素を\(\boldsymbol{X}^{(1)}, \boldsymbol{X}^{(2)}\)から成る2 つのグループに分割する。平均ベクトル \(\boldsymbol{\mu}\)も同じように、\(\boldsymbol{\mu}^{(1)}, \boldsymbol{\mu}^{(2)}\)に分割され、\(\boldsymbol{X}\)の共分散行列は\(\boldsymbol{X}^{(1)}\)の共分散行列\(\boldsymbol{\Sigma}_{11}\)、\(\boldsymbol{X}^{(1)}\)と\(\boldsymbol{X}^{(2)}\)の共分散行列\(\boldsymbol{\Sigma}_{12}\)、\(\boldsymbol{X}^{(2)}\)の共分散行列\(\boldsymbol{\Sigma}_{22}\)に分割される。\(\boldsymbol{X}\) の分布が正規分布に従うとき、\(\boldsymbol{X}^{(2)}=\boldsymbol{x}^{(2)}\)を与えたときの\(\boldsymbol{X}^{(1)}\)の条件付き分布は、平均ベクトル\(\boldsymbol{\mu}^{(1)}+\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)})\)、共分散行列\(\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}\)の多変量正規分布に従う。

上の例として、2変量正規分布の場合で、\(\boldsymbol{X}^{(2)=\boldsymbol{x}^{(2)}}\)を与えた時の\(\boldsymbol{X}^{(1)}\)の条件付き分布を考える。この場合、\(\boldsymbol{\mu}^{(1)}=\mu_1\)、\(\boldsymbol{\mu}^{(2)}=\mu_2\)、\(\boldsymbol{\Sigma}_{11}=\sigma_1^2\)、\(\boldsymbol{\Sigma}_{12}=\sigma_1\sigma_2\rho\)、\(\boldsymbol{\Sigma}_{22}=\sigma_2^2\)である。\(1\times1\)行列の回帰係数行列は\(\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}=\sigma_1\rho/\sigma_2\)、\(1\times 1\)行列の偏共分散行列は

\begin{align}\label{eq9}\boldsymbol{\Sigma}_{11\cdot2}=\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}=\sigma_1^2-\sigma_1^2\sigma_2^2\rho^2/\sigma_2^2=\sigma_1^2(1-\rho^2).\tag{9}\end{align}

である。\(x_2\)が与えられたときの\(X_1\)の密度関数は\(n[x_1|\mu_1+(\sigma_1\rho/\sigma_2)(x_2-\mu_2), \sigma_1^2(1-\rho^2)]\)である。\(\rho\)が正であるとき、この条件付き分布の平均は\(x_2\)について大きくなり、\(\rho\)が負であるとき、小さくなる。例として、\(\sigma_1=\sigma_2\)のとき、\(x_2\)が\(\mu_2\)より大きくなるほど、\(x_1\)についての条件付き分布の平均は\(\mu_1\)より多いくならない。Galton(1889) は父親の身長が平均以上である息子の身長の平均は父親の身長より低くなる傾向がある. 彼はこの効果を平均への回帰と呼んだ。\(|\rho|\)が大きいほど、条件付き分布の分散は小さくなる。すなわち、より多くの\(x_1\)の情報が\(x_2\)に含まれている。このことから、\(X_1\)と\(X_2\)の関連性の尺度として\(\rho\)が用いられる。

条件付き分布の幾何学的解釈

密度関数の幾何学的解釈を行う。

2変量の場合

2変量の場合、密度関数\(f(x_1,x_2)\)は\(x_1, x_2\)平面上での\(z=f(x_1,x_2)\)の曲面であると考えられる。この局面を平面\(x_2=c\)と交差させ、\(x_1, x_2\)平面上\(x_2=c\)上の曲面\(z=f(x_1,c)\)を得る。この局面の縦座標は\(x_2=c\)を与えた時の\(X_1\)の条件付き密度関数に比例している。すなわち、多変量正規分布の密度関数の縦座標に比例している。これは次の式より確認できる。</div class = "scroll">\begin{align}&f(x1|x2=c)=f(x1,x2)/f(x2=c)\\\Rightarrow &f(x1,x2=c)=f(x2=c)f(x1|x2=c)\end{align}\(f(x_2=c)\)は定数であることより、上式は比例関係にあることがいえた。

p変量の場合

より一般的場合である\(p\)変量の場合、\(p\)次元空間における一定な密度についての楕円体を考える。\(f(x_1,\ldots,x_q|c_{q+1},\ldots,c_p)\)の密度が一定となる局面は、\(f(x_1,\ldots,x_p)\)と超平面\(x_{q+1}=c_{q+1},\ldots, x_p=c_p\)を交差させてできる一定な密度の曲面である。これらもまた楕円体である。

条件付き分布の結論や具体例

条件付き分布の概念は正規分布を仮定した実際の母集団を考えることで、明確になる。例として,、父親と息子の母集団を考える。母集団が均一に分布していれば、父親の身長とその息子の身長は近似的に正規分布に従う。条件付き分布は、父親の身長を5feet9inchesと与えたときの息子の身長を考えると得られる。このとき、息子の身長は近似的に単変量正規分布に従う。この分布の平均は父親の身長が5feet4inchesのときの息子の身長の平均とは異るだろう。しかし分散はほとんど同じになるだろう。また、父親の身長、長男の身長、次男の身長の3組の観測値についても同じことがいえる。父親の身長が5feet9inchesの長男と次男の身長は2変量の条件付き分布に従う。長男と次男の身長の相関は偏相関係数となる。父親の身長を一定に保つことは父親からの遺伝によ
る影響を除外する。しかし兄弟の身長は、母親からの遺伝と環境要因により似る傾向があるため、長男と次男の身長の偏相関係数は正であると予想する者もいるだろう。上記のように、正規分布から得られたどの条件付き分布も与えられた変量の線形関数から
なる平均、一定な共分散行列をもつ正規分布に従う。しかし、条件付き分布がこれらの性質をもつような非正規分布を構成することも可能である。これは \(\boldsymbol{X}\)の密度関数を\(n(\boldsymbol{x}^{(1)}|\boldsymbol{\mu}^{(1)}+\boldsymbol{B}(\boldsymbol{x}^{(2)}-\boldsymbol{\mu}^{(2)},\boldsymbol{\Sigma}_{11\cdot2})f(\boldsymbol{x}^{(2)})\)の積とすることで得られる。ここに,、\(f(\boldsymbol{x}^{(2)})\)は任意の密度関数である。