ここでは、母集団が多変量正規分布である場合の平均ベクトルの最尤推定量である標本平均ベクトルや不偏標本共分散行列の十分性と完備性についてみていく。
単変量の場合でも最尤推定量である標本平均や不偏標本分散は十分性などの様々な性質があることが知られている。これらの性質を多変量でも成り立つことを示していく。
多変量正規分布の最尤推定量については平均ベクトルと共分散行列の最尤推定量を参照されたい。
標本平均ベクトル
まず、標本平均ベクトルについて紹介する。
\(\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N\)を\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)からの\(N\)個の標本とする。このとき、標本平均ベクトルは
\begin{align}\label{eq1} \bar{\boldsymbol{x}}= \cfrac{1}{N}\sum_{\alpha = 1}^N \boldsymbol{x}_{\alpha}\tag{1} \end{align}
で与えられる。また、不偏標本共分散行列\(\boldsymbol{S}\)を次で定義する。
\begin{align} \boldsymbol{S} &= (1/n)\sum_{\alpha = 1}^N(\boldsymbol{x}_{\alpha} - \bar{\boldsymbol{x}})(\boldsymbol{x}_{\alpha} - \bar{\boldsymbol{x}})^T\\&= \cfrac{1}{n}\boldsymbol{A},\end{align}
ここに、\(n = N-1\)、\(\boldsymbol{A} = \sum_{\alpha=1}^N(\boldsymbol{x}_{\alpha} - \bar{\boldsymbol{x}})(\boldsymbol{x}_{\alpha} - \bar{\boldsymbol{x}})^T\)である。
標本平均ベクトル\(\bar{\boldsymbol{x}}\)と標本共分散行列\(\boldsymbol{S}\)に関する性質をみていく。
標本平均ベクトルと共分散行列の十分性・完備性
十分性
まず十分統計量の定義についてみていく。
十分統計量
\(\boldsymbol{T} = \boldsymbol{t}\)を与えた時の\(\boldsymbol{X}\)の条件付き分布が\(\boldsymbol{\theta}\)に依存しないとき、統計量\(\boldsymbol{T}\)は\(\boldsymbol{X}\)の分布に対して、またはパラメータ\(\boldsymbol{\theta}\)に対して十分性をもつという。
これは、統計量\(\boldsymbol{T}\)は標本全体である\(\boldsymbol{X}\)と同じくらい\(\boldsymbol{\theta}\)の情報をもつということを意味する。
次に、ある統計量が十分性をもつかどうか判定するための定理を紹介していく。
因子分解定理
統計量\(\boldsymbol{t}(\boldsymbol{y})\)が\(\boldsymbol{\theta}\)に対して十分統計量である必要十分条件は、確率密度関数\(f(\boldsymbol{y} | \boldsymbol{\theta})\)が次のように分解できることである。
\begin{align}\label{eq2} f(\boldsymbol{y} | \boldsymbol{\theta}) = g\bigl[\boldsymbol{t} (\boldsymbol{y}), \boldsymbol{\theta}\bigr] h(\boldsymbol{y}),\tag{2}\end{align}
ここに\(g[\boldsymbol{t}(\boldsymbol{y}, \boldsymbol{\theta})]\)と\(h(\boldsymbol{y})\)非負であり、\(h(\boldsymbol{y})\)は\(\boldsymbol{\theta}\)に依存しない。
平均ベクトルと共分散行列の十分統計量
\(\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N\)が\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)の標本であるとき、\(\bar{\boldsymbol{x}}\)と\(\boldsymbol{S}\)はそれぞれ\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)の十分統計量である。\(\boldsymbol{\mu}\)が与えられているとき\(\sum_{\alpha = 1}^N(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})^T\)は\(\boldsymbol{\Sigma}\)の十分統計量であるが、\(\boldsymbol{\Sigma}\)が与えられているとき、\(\bar{\boldsymbol{x}}\)は\(\boldsymbol{\mu}\)の十分統計量である。
証明 \(\boldsymbol{X}_1, \ldots, \boldsymbol{X}_N\)の確率密度関数は
\begin{align}&\prod_{\alpha =1}^N \cfrac{1}{(2\pi)^{\frac{1}{2}p} |\boldsymbol{\Sigma}|^{\frac{1}{2}} }\exp\left[-\cfrac{1}{2}(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})\right]\\&=(2\pi)^{-\frac{1}{2}Np} |\boldsymbol{\Sigma}|^{-\frac{1}{2}N}\exp\left[-\cfrac{1}{2}\mathrm{tr}\boldsymbol{\Sigma}^{-1}\sum_{\alpha = 1}^N(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})^T\right]\\&= (2\pi)^{-\frac{1}{2}Np} |\boldsymbol{\Sigma}|^{-\frac{1}{2}N}\exp\left[-\cfrac{1}{2}\mathrm{tr}\left(\boldsymbol{\Sigma}^{-1}(\boldsymbol{A} + N(\bar{\boldsymbol{x}} - \boldsymbol{\mu})(\bar{\boldsymbol{x}} - \boldsymbol{\mu})^T\right)\right]\\ &=(2\pi)^{-\frac{1}{2}Np} |\boldsymbol{\Sigma}|^{-\frac{1}{2}N}\exp\left[-\cfrac{1}{2}\left\{(N-1)\mathrm{tr}(\boldsymbol{\Sigma}^{-1}\boldsymbol{S}) + N\mathrm{tr}\left(\boldsymbol{\Sigma}^{-1}(\bar{\boldsymbol{x}} - \boldsymbol{\mu})(\bar{\boldsymbol{x}} - \boldsymbol{\mu})^T\right)\right\}\right]\\\label{eq3} &= (2\pi)^{-\frac{1}{2}Np} |\boldsymbol{\Sigma}|^{-\frac{1}{2}N}\exp\left[-\cfrac{1}{2}\left\{N(\bar{\boldsymbol{x}} - \boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\bar{\boldsymbol{x}} - \boldsymbol{\mu}) +(N-1) \mathrm{tr}(\boldsymbol{\Sigma}^{-1}\boldsymbol{S})\right\}\right]\tag{3}\end{align}
\eqref{eq3}の右辺は\(\bar{\boldsymbol{x}}\)、\(\boldsymbol{S}\)、\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)についての\eqref{eq2}を満たす。2行目の式は、\(\sum_{\alpha = 1}^N (\boldsymbol{x}_{\alpha}- \boldsymbol{\mu})(\boldsymbol{x}_{\alpha}- \boldsymbol{\mu})^T\)、\(\boldsymbol{\Sigma}\)について\eqref{eq2}を満たす。また、それぞれ\(h(\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N) = 1\)である。さらに\(\boldsymbol{\Sigma}\)が与えられたとき、右辺は\(\bar{\boldsymbol{x}}\)、\(\boldsymbol{\mu}\)について\eqref{eq2}を満たす。またこのとき、
\(h(\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N) = \exp[-\frac{1}{2}(N-1)\mathrm{tr}(\boldsymbol{\Sigma}^{-1}\boldsymbol{S})]\)
である。
\(\boldsymbol{\Sigma}\)が与えられているとき\(\bar{\boldsymbol{x}}\)は\(\boldsymbol{\mu}\)の十分統計量であるが、\(\boldsymbol{\mu}\)が与えられているとき\(\boldsymbol{S}\)は\(\boldsymbol{\Sigma}\)の十分統計量ではないことがいえる。
完備性
まず、完備性の定義をみていく。
完備性
\(\boldsymbol{\theta}\)において、全ての実数値関数\(g(\boldsymbol{y})\)に対し次の式が確率\(0\)を除いて\(g(\boldsymbol{y}) = 0\)のときにのみ成り立つとき、\(\boldsymbol{y}\)の分布は完備である。
\begin{align}\label{eq4} \mathrm{E}_{\boldsymbol{\theta}}\left[g(\boldsymbol{y})\right] \equiv 0.\tag{4}\end{align}
また、十分統計量の集合から成る分布族が完備であるとき、その集合は完備十分集合(complete sufficient set)という。
標本平均ベクトルと不偏標本共分散行列の完備性
\(\boldsymbol{x}_1, \ldots , \boldsymbol{x}_N\)が\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)からの標本であるとき、統計量\(\bar{\boldsymbol{x}}\)、\(\boldsymbol{S}\)の十分集合は完備である。
証明 \(n = N-1\)する。また、標本平均ベクトルの分布でみてきたように、標本を\(\bar{\boldsymbol{x}}\)、\(\boldsymbol{z}_1, \ldots, \boldsymbol{z}_n\)、\(\boldsymbol{A}\)で表現することができる。ここに
\(\boldsymbol{A} =\sum_{\alpha=1}^N(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})(\boldsymbol{x}_{\alpha} - \boldsymbol{\mu})^T = \sum_{\alpha=1}^n\boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\)
である。今、\(\mathrm{tr}(\boldsymbol{\Sigma}^{-1}\boldsymbol{A}) = \sum_{\alpha = 1}^n\boldsymbol{z}_{\alpha}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{z}_{\alpha}\)である。\eqref{eq3}の\(\boldsymbol{A}\)を\(\boldsymbol{z}_{\alpha}\)で置き換えることで、任意の関数\(g(\bar{\boldsymbol{x}}, \boldsymbol{A}) = g(\bar{\boldsymbol{x}},n \boldsymbol{S})\)に対して次を仮定する。
\begin{align}&\int \cdots \int K|\boldsymbol{\Sigma}|^{-\frac{1}{2}N} g\left(\bar{\boldsymbol{x}}, \sum_{\alpha = 1}^n \boldsymbol{z}_{\alpha} \boldsymbol{z}_{\alpha}^T\right) \\ &\qquad \qquad\cdot \exp\left[-\cfrac{1}{2}\left\{N(\bar{\boldsymbol{x}} - \boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\bar{\boldsymbol{x}} - \boldsymbol{\mu}) + \sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{z}_{\alpha}\right\}\right]\\ \label{eq5} &\qquad\qquad \cdot d\bar{\boldsymbol{x}} \prod_{\alpha=1}^nd \boldsymbol{z}_{\alpha} \equiv 0,\ \quad \forall \boldsymbol{\mu}, \boldsymbol{\Sigma},\tag{5}\end{align}
ここに、\(K=\sqrt{N} (2\pi)^{-\frac{1}{2}pN}\)、\(d\bar{\boldsymbol{x}} = \prod_{i=1}^p d\bar{x}_i\)、\(d\boldsymbol{z}_{\alpha} = \prod_{i=1}^p dz_{i\alpha}\)である。\(\boldsymbol{\Theta}^T = \boldsymbol{\Theta}\)であり\(\boldsymbol{I} -2 \boldsymbol{\Theta}\)は正定値性を満たす行列\(\boldsymbol{\Theta}\)を用いて、\(\boldsymbol{\Sigma} = \boldsymbol{I} - 2\boldsymbol{\Theta}\)、\(\boldsymbol{\mu} = (\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\boldsymbol{t}\)とすると、\eqref{eq5}は次のように書ける。
\begin{align} 0&\equiv \int\cdots \int K|\boldsymbol{I} - 2\boldsymbol{\Theta}|^{\frac{1}{2}N} g\left(\bar{\boldsymbol{x}} , \sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\right)\\ & \quad \cdot \exp\left[-\cfrac{1}{2}\left\{N\bigl(\bar{\boldsymbol{x}} - (\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\bigr)^T(\boldsymbol{I} - 2\boldsymbol{\Theta})\bigl(\bar{\boldsymbol{x}} - (\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\boldsymbol{t}\bigr) + \sum_{\alpha=1}^n\boldsymbol{z}_{\alpha}^T (\boldsymbol{I} - 2\boldsymbol{\Theta})\boldsymbol{z}_{\alpha}\right\}\right] d\bar{\boldsymbol{x}} \prod_{\alpha=1}^n\boldsymbol{z}_{\alpha} \\ &= \int\cdots \int K|\boldsymbol{I} - 2\boldsymbol{\Theta}|^{\frac{1}{2}N} g\left(\bar{\boldsymbol{x}} , \sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\right)\\ & \quad \cdot \exp\left[-\cfrac{1}{2}\left\{ N\mathrm{tr}(\boldsymbol{I} - 2\boldsymbol{\Theta})\bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T - 2N \boldsymbol{t}^T\bar{\boldsymbol{x}} + N\boldsymbol{t}^T(\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\boldsymbol{t} + \mathrm{tr}(\boldsymbol{I} - 2\boldsymbol{\Theta})\sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\right\}\right]d\bar{\boldsymbol{x}} \prod_{\alpha=1}^n\boldsymbol{z}_{\alpha} \\ &= \int\cdots \int K|\boldsymbol{I} - 2\boldsymbol{\Theta}|^{\frac{1}{2}N} g\left(\bar{\boldsymbol{x}} , \sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\right)\\ & \quad \cdot \exp\left[-\cfrac{1}{2}\left\{ \mathrm{tr}(\boldsymbol{I} - 2\boldsymbol{\Theta})\left(\sum_{\alpha=1}^n\boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T + N\bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T\right) -2N\boldsymbol{t}^T\bar{\boldsymbol{x}} + N\boldsymbol{t}^T(\boldsymbol{I} - 2\boldsymbol{\Theta})\boldsymbol{t}\right\}\right]d\bar{\boldsymbol{x}} \prod_{\alpha=1}^n\boldsymbol{z}_{\alpha}\\ &= K|\boldsymbol{I} - 2\boldsymbol{\Theta}|^{\frac{1}{2}N}\exp\left[-\cfrac{1}{2}N\boldsymbol{t}^T(\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\boldsymbol{t}\right] \\&\quad \cdot \int\cdots\int g(\bar{\boldsymbol{x}}, B - N\bar{\boldsymbol{x}} \bar{\boldsymbol{x}}^T) \exp\left[\cfrac{1}{2}\mathrm{tr}\left(\sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\right) + \mathrm{tr}(\boldsymbol{\Theta B}) + N\boldsymbol{t}^T\bar{\boldsymbol{x}} \right]d\bar{\boldsymbol{x}} \prod_{\alpha=1}^n\boldsymbol{z}_{\alpha}\\&=|\boldsymbol{I} - 2\boldsymbol{\Theta}|^{\frac{1}{2}N}\exp\left[-\cfrac{1}{2}N\boldsymbol{t}^T(\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\boldsymbol{t}\right] \\&\quad \cdot \int\cdots\int g(\bar{\boldsymbol{x}}, B - N\bar{\boldsymbol{x}} \bar{\boldsymbol{x}}^T) \cdot (2\pi)^{\frac{1}{2}np}\exp\left[-\cfrac{1}{2}\sum_{\alpha=1}^n \boldsymbol{z}_{\alpha}\boldsymbol{z}_{\alpha}^T\right]\cdot (2\pi)^{-\frac{1}{2}p}\left|\cfrac{1}{N}\boldsymbol{I}\right|\exp\left[-\cfrac{1}{2}N\bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T\right]\cdot \exp\bigl[\mathrm{tr}(\boldsymbol{\Theta B}) + \boldsymbol{t}^T(N\bar{\boldsymbol{x}})\bigr] d\bar{\boldsymbol{x}} \prod_{\alpha=1}^nd \boldsymbol{z}_{\alpha}\\&= |\boldsymbol{I} - 2\boldsymbol{\Theta}|^{\frac{1}{2}N}\exp\left[-\cfrac{1}{2}N\boldsymbol{t}^T(\boldsymbol{I} - 2\boldsymbol{\Theta})^{-1}\boldsymbol{t}\right] \\\label{eq6} &\quad \cdot \int\cdots\int g(\bar{\boldsymbol{x}}, B - N\bar{\boldsymbol{x}} \bar{\boldsymbol{x}}^T) \exp\bigl[\mathrm{tr}(\boldsymbol{\Theta B}) + \boldsymbol{t}^T(N\bar{\boldsymbol{x}})\bigr] n\bigl[\bar{\boldsymbol{x}}| \boldsymbol{0}, (1/N)\boldsymbol{I}\bigr]\prod_{\alpha=1}^n n(\boldsymbol{z}_{\alpha}| \boldsymbol{0}, \boldsymbol{I}) d\bar{\boldsymbol{x}} \prod_{\alpha=1}^n d\boldsymbol{z}_{\alpha},\tag{6} \end{align}
ここに\(\boldsymbol{B} = \sum_{\alpha = 1}^n \boldsymbol{z}_{\alpha} \boldsymbol{z}_{\alpha}^T + N \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T\)である。よって
\begin{align}0&\equiv \mathrm{E}\left[g\left(\bar{\boldsymbol{x}}, \boldsymbol{B} - N\bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T\right) \exp\left[\mathrm{tr}(\boldsymbol{\Theta B}) + \boldsymbol{t}^T(N\bar{\boldsymbol{x}}) \right]\right] \\&= \int\cdots\int g(\bar{\boldsymbol{x}}, B - N\bar{\boldsymbol{x}} \bar{\boldsymbol{x}}^T) \exp\bigl[\mathrm{tr}(\boldsymbol{\Theta B}) + \boldsymbol{t}^T(N\bar{\boldsymbol{x}})\bigr] n\bigl[\bar{\boldsymbol{x}}| \boldsymbol{0}, (1/N)\boldsymbol{I}\bigr]\prod_{\alpha=1}^n n(\boldsymbol{z}_{\alpha}| \boldsymbol{0}, \boldsymbol{I}) d\bar{\boldsymbol{x}} \prod_{\alpha=1}^n d\boldsymbol{z}_{\alpha} \end{align}
が示せた。さらに\(\boldsymbol{z}_{\alpha},\ \alpha=1,\ldots, n\)における積分は正定値対称行列\(\boldsymbol{B}\)の成分\(b_{ij},\ i\leq j\)における積分と同値であることに注意すると上式は次のように書き換えられる。
\begin{align}& \mathrm{E}\left[g\left(\bar{\boldsymbol{x}}, \boldsymbol{B} - N\bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T\right) \exp\left[\mathrm{tr}(\boldsymbol{\Theta B}) + \boldsymbol{t}^T(N\bar{\boldsymbol{x}}) \right]\right] \\\label{eq7} &= \int \cdots\int g(\bar{\boldsymbol{x}}, \boldsymbol{B} -N \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T) \exp\left[ \mathrm{tr}(\boldsymbol{\Theta B}) + \boldsymbol{t}^T(N\bar{\boldsymbol{x}})\right] h(\bar{\boldsymbol{x}} , \boldsymbol{B}) d\bar{\boldsymbol{x}} d\boldsymbol{B},\tag{7}\end{align}
ここに\(h(\bar{\boldsymbol{x}}, \boldsymbol{B})\)は\(\bar{\boldsymbol{x}}\)と\(\boldsymbol{B}\)の同時密度関数であり、\(d\boldsymbol{B} = \prod_{i\leq j} b_{ij}\)である。\eqref{eq7}の右辺は\(g(\bar{\boldsymbol{x}}, \boldsymbol{B}- N \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^T)h(\bar{\boldsymbol{x}}, \boldsymbol{B})\)のラプラス変換である。\eqref{eq7}が\(0\)であることは、測度\(0\)を除いて\(g(\bar{\boldsymbol{x}}, \boldsymbol{B} - N\bar{\boldsymbol{x}} \bar{\boldsymbol{x}}^T) = g(\bar{\boldsymbol{x}}, \boldsymbol{A}) = 0\)であることを意味する。故に定義2より、\(\bar{\boldsymbol{x}}\)、\(\boldsymbol{A }= n\boldsymbol{S}\)の分布族は完備である。したがって、\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)の十分統計量\(\bar{\boldsymbol{x}}\)、\(\boldsymbol{S}\)は\(\boldsymbol{\mu}\)、\(\boldsymbol{\Sigma}\)に対して完備である。