標本平均ベクトルの分布

標本平均ベクトルの分布についてみていく。

母集団分布が多変量正規分布である場合の標本平均ベクトルの従う分布を導出する。

標本平均の分布で単変量の場合を見てきたが、これらの単変量の結果を多変量へと拡張していく。

分布の導出に用いる定理・補題

単変量の場合、標本平均は正規分布に従い標本分散と独立であることがいえる。同様に、平均ベクトルと共分散行列の最尤推定量で定義した標本平均ベクトル\(\bar{\boldsymbol{X}}\)も多変量正規分布に従い標本共分散行列\(\hat{\boldsymbol{\Sigma}}\)と独立である。

多変量へと拡張するために、観測ベクトル\(\boldsymbol{X}_{\alpha},\ \alpha = 1, \ldots, N\)に対して様々な変換を行う。まず次の定理を示す。

定理１

定理1

\(\boldsymbol{X}_1, \ldots, \boldsymbol{X}_N\)は互いに独立であると仮定する。ここに、\(\boldsymbol{X}_{\alpha}\)は\(N(\boldsymbol{\mu}_{\alpha}, \boldsymbol{\Sigma})\)に従う。\(\boldsymbol{C} = (c_{\alpha\beta})\)を\(N\times N\)直交行列とする。このとき、\(\boldsymbol{Y}_{\alpha} = \sum_{\beta = 1}^N c_{\alpha\beta}\boldsymbol{X}_{\beta}\)は\(N(\boldsymbol{\nu}_{\alpha}, \boldsymbol{\Sigma})\)に従う。ここに、\(\boldsymbol{\nu}_{\alpha} = \sum_{\beta = 1}^N c_{\alpha\beta} \boldsymbol{\mu}_{\beta},\ \alpha = 1, \ldots, N\)であり、\(\boldsymbol{Y}_1, \ldots, \boldsymbol{Y}_N\)は互いに独立である。

証明　\(\boldsymbol{Y}_1, \ldots, \boldsymbol{Y}_{N}\)は\(\boldsymbol{X}_1 , \ldots, \boldsymbol{X}_N\)からの線形結合で表されるので、\(\boldsymbol{Y}_1, \ldots, \boldsymbol{Y}_N\)正規分布に従う。\(\boldsymbol{Y}_{\alpha}\)の期待値は

\begin{align}\mathrm{E}[\boldsymbol{Y}_{\alpha}] &= \mathrm{E}\left[\sum_{\beta= 1}^Nc_{\alpha\beta}\boldsymbol{Y}_{\beta}\right]\\&= \sum_{\beta=1}^Nc_{\alpha\beta}\mathrm{E}[\boldsymbol{X}_{\alpha}]\\&=\sum_{\beta=1}^Nc_{\alpha\beta}\boldsymbol{\mu}_{\beta}\\\label{eq1} &=\boldsymbol{\nu} _{\alpha}\tag{1}.\end{align}

次に共分散行列を求める。共分散行列を導出するために、次の直交行列の等式を用いる。

\begin{align}\boldsymbol{CC}^T &= \begin{pmatrix}c_{11} & c_{12} & \cdots & c_{1N}\\ c_{21} & c_{22} & \cdots & c_{2N}\\ \vdots & \vdots & &vdots\\ c_{N1} & c_{N2} & \cdots & c_{NN} \end{pmatrix} \begin{pmatrix}c_{11} & c_{21} & \cdots & c_{N1}\\ c_{12} & c_{22} & \cdots & c_{N2}\\ \vdots & \vdots & &\vdots\\ c_{1N} & c_{2N} & \cdots & c_{NN} \end{pmatrix}\\&=\begin{pmatrix}\sum_{\beta =1}^Nc_{1\beta}^2 & \sum_{\beta=1}^Nc_{1\beta}c_{2\beta} & \cdots & \sum_{\beta=1}^N c_{1\beta}c_{N\beta}\\ \sum_{\beta=1}^Nc_{2\beta}c_{1\beta} & \sum_{\beta=1}^Nc_{2\beta}^2 & \cdots & \sum_{\beta=1}^Nc_{2\beta}c_{N\beta}\\ \vdots & \vdots & & \vdots\\ \sum_{\beta=1}^N c_{N\beta}c_{1\beta} & \sum_{\beta=1}^N c_{N\beta}c_{2\beta} & \cdots & \sum_{\beta=1}^N c_{N\beta}^2\end{pmatrix} \\&= \boldsymbol{I},\\ \boldsymbol{C}^T\boldsymbol{C} \\ &= \begin{pmatrix}\sum_{\beta =1}^Nc_{\beta1}^2 & \sum_{\beta=1}^Nc_{\beta1}c_{\beta2} & \cdots & \sum_{\beta=1}^N c_{1\beta1}c_{\beta N}\\ \sum_{\beta=1}^Nc_{\beta2}c_{\beta1} & \sum_{\beta=1}^Nc_{\beta2}^2 & \cdots & \sum_{\beta=1}^Nc_{\beta2}c_{\beta N }\\ \vdots & \vdots & & \vdots\\ \sum_{\beta=1}^N c_{\beta N}c_{1\beta1} & \sum_{\beta=1}^N c_{\beta N}c_{\beta2} & \cdots & \sum_{\beta=1}^N c_{\beta N}^2 \end{pmatrix}\\ &= \boldsymbol{I}.\end{align}

上式より次の関係が成り立つ。

\begin{gather} \sum_{\beta=1}^N c_{\alpha\beta}c_{\gamma\beta} = \delta_{\alpha \gamma}, \\\label{eq2}\tag{2} \sum_{\beta=1}^N c_{\beta\alpha}c_{\beta\gamma} = \delta_{\alpha\gamma},\end{gather}

ここに、\(\delta_{\alpha\gamma}\)はクロネッカーのデルタである。上式を用いることで\(\boldsymbol{Y}_{\alpha}\)と\(\boldsymbol{Y}_{\gamma}\)の共分散行列は次のように表される。

\begin{align}\mathrm{E}\bigl[(\boldsymbol{Y}_{\alpha} - \boldsymbol{\nu}_{\alpha})(\boldsymbol{Y}_{\gamma} - \boldsymbol{\nu}_{\gamma})^T\bigr] &= \mathrm{E}\left[\left\{\sum_{\beta=1}^N c_{\alpha\beta} (\boldsymbol{X}_{\beta} - \boldsymbol{\mu}_{\beta})\right\} \left\{\sum_{\beta=1}^N c_{\alpha\beta} (\boldsymbol{X}_{\beta} - \boldsymbol{\mu}_{\beta})\right\}^T \right]\\&=\sum_{\beta , \varepsilon = 1}^N c_{\alpha\beta}c_{\gamma \varepsilon} \mathrm{E}\bigl[(\boldsymbol{X}_{\beta} - \boldsymbol{\mu}_{\beta})(\boldsymbol{X}_{\varepsilon} - \boldsymbol{\mu}_{\varepsilon})^T\bigr]\\&= \sum_{\beta, \varepsilon = 1}^N c_{\alpha\beta}c_{\gamma\varepsilon} \delta_{\beta \varepsilon} \boldsymbol{\Sigma}\\&= \sum_{\beta=1}^N c_{\alpha\beta}c_{\gamma\beta} \boldsymbol{\Sigma}\\\label{eq3}&= \delta_{\alpha \gamma}\boldsymbol{\Sigma}\tag{3}.\end{align}

上式の\(\boldsymbol{Y}_{\alpha}\)と\(\boldsymbol{Y}_{\gamma}\)の共分散行列が\(\alpha = \gamma\)のとき\(\boldsymbol{\Sigma}\)、\(\alpha \neq \gamma\)のとき\(\boldsymbol{0}\)となることから、\(\boldsymbol{Y}_{\alpha} \)は\(N(\boldsymbol{\nu}_{\alpha}, \boldsymbol{\Sigma})\)に従い、\(\boldsymbol{Y}_1, \ldots, \boldsymbol{Y}_N\)は互いに独立である。□

また、標本平均ベクトルの分布の導出の際に次の補題を用いる。

補題1

\(\boldsymbol{C} =( c_{\alpha\beta})\)が直交行列であるとき、\(\sum_{\alpha=1}^N\boldsymbol{x}_{\alpha}\boldsymbol{x}_{\alpha}^T = \sum_{\alpha=1}^N \boldsymbol{y}_{\alpha}\boldsymbol{y}_{\alpha}^T\)である。ここに、\(\boldsymbol{y}_{\alpha} = \sum_{\beta=1}^N c_{\alpha\beta}\boldsymbol{x}_{\alpha},\ \alpha = 1,\ldots , N\)である。

証明

\begin{align}\sum_{\alpha=1}^N \boldsymbol{y}_{\alpha}\boldsymbol{y}_{\alpha}^T &= \sum_{\alpha=1}^N \left(\sum_{\beta=1}^N c_{\alpha\beta}\boldsymbol{x}_{\beta}\right)\left(\sum_{\gamma=1}^Nc_{\alpha\gamma} \boldsymbol{x}_{\gamma}\right)^T \\ &= \sum_{\alpha=1}^N \sum_{\beta, \gamma=1}^Nc_{\alpha\beta}c_{\alpha\gamma}\boldsymbol{x}_{\beta}\boldsymbol{x}_{\gamma}^T\\&= \sum_{\beta, \gamma=1}^N \sum_{\alpha}c_{\alpha\beta}c_{\alpha\gamma} \boldsymbol{x}_{\beta}\boldsymbol{x}_{\gamma}^T\\ &= \sum_{\beta, \gamma=1}^N\delta_{\beta\gamma}\boldsymbol{x}_{\beta}\boldsymbol{x}_{\gamma}^T\\\label{eq4} &= \sum_{\beta=1}^N \boldsymbol{x}_{\beta}\boldsymbol{x}_{\gamma}^T.\tag{4}\end{align}

4番目の等式には、\eqref{eq2}を用いた。□

\(\boldsymbol{X}_1, \ldots, \boldsymbol{X}_N\)を互いに独立である都市、それぞれ\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)に従っているとする。最後の行に次をもつ\(N\times N\)直交行列\(B = (b_{\alpha\beta})\)を考える。

\begin{align}(1/\sqrt{ N} , \ldots, 1/\sqrt{N}).\end{align}

\(N\)番目の座標軸を通るequiangular lineに対しての回転\(\boldsymbol{A}\)を\(\boldsymbol{A} = N\hat{\boldsymbol{\Sigma}}\)で与え、\(\boldsymbol{Z}_{\alpha}\)を次で定義する。

\begin{align}\label{eq5} \boldsymbol{Z}_{\alpha} = \sum_{\beta=1}^N b_{\alpha\beta}\boldsymbol{X}_{\beta}.\tag{5}\end{align}

今、\eqref{eq5}より\(\boldsymbol{Z}_N\)について次がいえる。

\begin{align}\boldsymbol{Z}_N &= \sum_{\beta=1}^Nb_{N\beta}\boldsymbol{X}_{\beta}\\&= \sum_{\beta=1}^N\cfrac{1}{\sqrt{N}}\boldsymbol{X}_{\beta}\\&= \cfrac{1}{\sqrt{N}} \cfrac{1}{N}\sum_{\beta=1}^N \boldsymbol{X}_{\beta}\\\label{eq6}&= \sqrt{N}\bar{\boldsymbol{X}}\tag{6}\end{align}

よって、補題1より次が成り立つ。

\begin{align}\boldsymbol{A} &= \sum_{\alpha=1}^N \boldsymbol{X}_{\alpha}\boldsymbol{X}_{\alpha}^T - N \bar{\boldsymbol{X}}\bar{\boldsymbol{X}}^T\\&=\sum_{\alpha=1}^N \boldsymbol{Z}_{\alpha}\boldsymbol{Z}_{\alpha}^T - N \left(\cfrac{1}{\sqrt{N}}\boldsymbol{Z}_N\right)\left(\cfrac{1}{\sqrt{N}}\boldsymbol{Z}_N\right)^T\\&= \sum_{\alpha=1}^N \boldsymbol{Z}_{\alpha}\boldsymbol{Z}_{\alpha}^T - \boldsymbol{Z}_N\boldsymbol{Z}_N^T\\\label{eq7}&= \sum_{\alpha=1}^{N-1}\boldsymbol{Z}_{\alpha}\boldsymbol{Z}_{\alpha}^T.\tag{7}\end{align}

定理1より、\(\boldsymbol{Z}_1, \ldots, \boldsymbol{Z}_N\)は互いに独立であることから、\(\boldsymbol{Z}_N\)は\(\boldsymbol{Z}_1, \ldots, \boldsymbol{Z}_{N-1}\)と独立である。したがって、標本平均ベクトル\(\bar{\boldsymbol{X}}\)は\(\boldsymbol{A}\)と独立である。次に、\(\bar{\boldsymbol{X}}\)の平均ベクトルと共分散行列を求める。定理1より

\begin{align}\mathrm{E}[ \boldsymbol{Z}_N]&= \sum_{\beta=1}^Nb_{N\beta} \boldsymbol{\mu}\\&= \sum_{\beta=1}^N \cfrac{1}{\sqrt{N}}\boldsymbol{\mu}\\\label{eq8}&= \sqrt{N}\boldsymbol{\mu}\tag{8}\end{align}

であることから、\(\boldsymbol{Z}_N\sim N(\sqrt{N}\boldsymbol{\mu}, \boldsymbol{\Sigma})\)であり、\(\bar{\boldsymbol{X}}=(1/\sqrt{N})\boldsymbol{Z}_N\sim N[\boldsymbol{\mu}, (1/N)\boldsymbol{\Sigma}]\)である。また、\(\boldsymbol{Z}_{\alpha},\ \alpha=1, \ldots, N-1\)に関して次がいえる。

\begin{align}\mathrm{E}[\boldsymbol{Z}_{\alpha}] &= \sum_{\beta=1}^{N}b_{\alpha\beta}\boldsymbol{X}_{\beta}\\&= \sum_{\beta=1}^N b_{\alpha\beta}\cfrac{1}{\sqrt{N}} \sqrt{N}\boldsymbol{\mu}\\&=\sum_{\beta=1}^N b_{\alpha\beta}b_{N\beta} \sqrt{N}\boldsymbol{\mu}\\&= 0\cdot \sqrt{N}\boldsymbol{\mu}\\\label{eq9}&= \boldsymbol{0}. \tag{9}\end{align}

これらの結果を次の定理にまとめる。

定理2　標本平均ベクトルの分布

標本平均ベクトルの分布

\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)からの\(N\)個の標本から成る標本平均ベクトルは\(N[\boldsymbol{\mu}, (1/ \sqrt{N})\boldsymbol{\Sigma}]\)に従い、共分散行列\(\boldsymbol{\Sigma}\)の最尤推定量である\(\hat{\boldsymbol{\Sigma}}\)と独立である。また、\(\boldsymbol{A} = N\hat{\boldsymbol{\Sigma}}\)は\(\boldsymbol{A}=\sum_{\alpha=1}^{N-1}\boldsymbol{Z}_{\alpha}\boldsymbol{Z}_{\alpha}^T\)と表すことができる。ここに、\(\boldsymbol{Z}_{\alpha},\ \alpha=1,\ldots, N-1\)は\(N(\boldsymbol{0}, \boldsymbol{\Sigma})\)に従い、\(\boldsymbol{Z}_1,\ldots, \boldsymbol{Z}_{N-1}\)は独立である。

平均ベクトルと共分散行列の不偏推定量

標本平均ベクトルの分布で得られた結果を用いることで、平均ベクトルと共分散行列の不偏推定量を求めることが可能である。

定義1　不偏推定量

不偏推定量

パラメータ\(\boldsymbol{\theta}\)の推定量\(\boldsymbol{t}\)が不偏推定量である必要十分条件は\(\mathrm{E}_{\boldsymbol{\theta}}[\boldsymbol{t}] = \boldsymbol{\theta}\)である。

標本平均ベクトルの期待値は

\begin{align}\mathrm{E}[\bar{\boldsymbol{X}}]&=\mathrm{E}\left[\cfrac{1}{N}\sum_{\alpha=1}^N\boldsymbol{X}_{\alpha}\right]\\&= \cfrac{1}{N}\sum_{\alpha=1}^N \mathrm{E}[\boldsymbol{X}_{\alpha}]\\&= \cfrac{1}{N}N\boldsymbol{\mu}\\&= \boldsymbol{\mu}\end{align}

であることから、不偏推定量の定義より標本平均ベクトル\(\bar{\boldsymbol{X}}\)は平均ベクトル\(\boldsymbol{\mu}\)の不偏推定量である。共分散行列の最尤推定量である\(\hat{\boldsymbol{\Sigma}}\)に関しては

\begin{align}\mathrm{E}[\hat{\boldsymbol{\Sigma}}] &= \mathrm{E}\left[\cfrac{1}{N}\boldsymbol{A}\right]\\&= \mathrm{E}\left[ \cfrac{1}{N} \sum_{\alpha=1}^{N-1} \boldsymbol{Z}_{\alpha}\boldsymbol{Z}_{\alpha}^T\right]\\&= \cfrac{1}{N}\mathrm{E}\left[\sum_{\alpha=1}^{N-1}\bigl(\boldsymbol{Z}_{\alpha} - \mathrm{E}[\boldsymbol{Z}_{\alpha}]\bigr)\bigl(\boldsymbol{Z}_{\alpha} - \mathrm{E}[\boldsymbol{Z}_{\alpha}]\bigr)^T\right]\\&= \cfrac{1}{N} \sum_{\alpha=1}^{N-1}\mathrm{E} \Bigl[(\boldsymbol{Z}_{\alpha} - \mathrm{E}[\boldsymbol{Z}_{\alpha}])(\boldsymbol{Z}_{\alpha} - \mathrm{E}[\boldsymbol{Z}_{\alpha}])^T\Bigr]]\\&= \cfrac{1}{N}\sum_{\alpha=1}^{N-1}\boldsymbol{\Sigma} \\&= \cfrac{N-1}{N} \boldsymbol{\Sigma}\end{align}

であるこから、\(\hat{\boldsymbol{\Sigma}}\)は\(\boldsymbol{\Sigma}\)の不偏推定量ではない。故に、次を共分散行列\(\boldsymbol{\Sigma}\)の不偏推定量として定義する。

\begin{align}\boldsymbol{S} &= \cfrac{1}{N-1}\boldsymbol{A}\label{eq10}= \cfrac{1}{N-1}\sum_{\alpha=1}^N (\boldsymbol{x}_{\alpha} - \bar{\boldsymbol{x}})(\boldsymbol{x}_{\alpha} - \bar{\boldsymbol{x}})^T.\tag{10}\end{align}

これは不偏標本共分散行列と呼ばれ、\(\boldsymbol{S}\)の対角成分は、単変量の場合の分散の不偏推定量である不偏標本分散となる。