【統計学】中心極限定理とその証明

確率論・統計学において重要な定理の一つである中心極限定理について解説する。

単変量だけでなく、多変量の中心極限定理についても紹介しその証明を行う。

中心極限定理

\(n\)個の確率変数\(X_1, X_2, \ldots, X_n;\ i.i.d.\)は、平均\(\mathrm{E}[X_k] =\mu\)、分散\(\mathrm{Var}[X_k] =\sigma^2\)をもつとする。\(n\to \infty\)のとき、確率変数\(Z= \sqrt{n}(\bar{X} - \mu)\)について、次がいえる。

\begin{align}\label{eq1} Z= \sqrt{n}( \bar{X} - \mu) \sim N(0, \sigma),\quad n \to \infty, \tag{1} \end{align}

ここに\(\bar{X}= (1/n) \sum_{k=1}^n X_k\)。

この定理は、確率変数が正規性をもたなくても、\(Z=\sqrt{n}(\bar{X} - \mu) \)は\(n\)が大きくなるにつれて、標準正規分布に近づくことを意味する。標本論において重要な定理の1つである中心極限定理を証明する。

証明　\(X_1, X_2, \ldots, X_n; i.i.d.\)は平均\(\mathrm{E}[X_k] = \mu\)、分散\(\mathrm{Var}[X_k] = \sigma^2\)をもつとする。これら\(n\)個の確率変数からの観測値からなる標本平均の確率変数を\(\bar{X}\)とし、確率変数\(Z_k\)を\(Z_k = (X_k -\mu)/ \sigma,\ k= 1, 2, \ldots, n\)で定義する。\(Z_k,\ k = 1, 2, \ldots, n\)は平均\(0\)、分散\(\sigma^2\)をもつ同一の分布に従う確率変数列である。\(Z=\sqrt{n}(\bar{X} - \mu)/\sigma\)とおくと

\begin{align}Z &= \sqrt{n}(\bar{X}- \mu) \\&= \sqrt{n}\left\{\cfrac{1}{n}\sum_{k=1}^nX_k- \mu\right\}\\ &= \cfrac{1}{\sqrt{n}} \sum_{k=1}^n \cfrac{X_k- \mu}{\sigma}\\ &= \cfrac{1}{\sqrt{n}}\sum_{k=1}^nZ_k\end{align}

である。今、特性関数の性質を用いることで\(Z\)の特性関数\(\phi_{Z}(t)\)は

\begin{align}\phi_{Z}(t) &= \phi_{\frac{1}{\sqrt{n}}\sum_{k=1}^nZ_k}(t) \\&= \phi_{\sum_{k=1}^nZ_k}(\tfrac{t}{\sqrt{n}})\\&= \prod_{k=1}^n\phi_{Z_k}(\tfrac{t}{\sqrt{n}})\\\label{eq2} &= \phi_{Z_1}^n(\tfrac{t}{\sqrt{n}}) \tag{2} \end{align}

となる。次にテイラー展開により、\(Z_1\)の特性関数を\(n^{-\frac{1}{2}}\)のオーダーで展開することを考える。特性関数\(\phi_{Z_1}(t / \sqrt{n})\)について次が成り立つ。

\begin{align}\left.\phi_{Z_1}(t) \right|_{it=0} &= 1, \\ \left.\cfrac{d}{d(it)}\phi_{Z_1}(t)\right|_{it=0} &= \mu_{Z_1}= 0,\\ \left.\cfrac{d^2}{d(it)^2}\phi_{Z_1}(t)\right|_{it=0} &= \sigma_{Z_1}^2 + \mu_{Z_1}^2 = \sigma^2. \end{align}

また、\(Z_1\)の特性関数をテイラー展開すると

\begin{align}\phi_{Z_1}(t) &=\cfrac{(it)^0}{0!}\left.\phi_{Z_1}(t)\right|_{it=0} + \cfrac{(it)^1}{1!}\left.\cfrac{d}{d(it)}\phi_{Z_1}(t)\right|_{it=0} + \cfrac{(it)^2}{2!}\left.\cfrac{d}{d(it)}\phi_{Z_1}(t)\right|_{it=0} + \cdots\\&= 1 + it\cdot0 - \cfrac{t^2}{2} \cdot \sigma^2 \\ &= 1 - \cfrac{1}{2}\sigma^2 t^2 + \cdots.\end{align}

上式に\(t=t/\sqrt{n}\)を適用することで

\begin{align}\phi_{Z_1}(\tfrac{t}{\sqrt{n}}) &= 1 - \cfrac{1}{2}\sigma^2 \left(\cfrac{t}{\sqrt{n}}\right)^2 + \cdots \\ \label{eq3} &=1 - \cfrac{1}{2n}\sigma^2 t^2 + O(n^{-\frac{3}{2}}) \tag{3}\end{align}

を得る。したがって、\eqref{eq2}は次のように表現できる。

\begin{align}\phi_Z(t) = \left[1 - \cfrac{1}{2n}\sigma^2 t^2 + O(n^{-\frac{3}{2}}) \right]^n.\end{align}

ここで、次の公式を用いる。

\begin{align}\lim_{n\to \infty} \left[1 + \cfrac{a}{n}+ \cfrac{h(n)}{n}\right]^n = e^a,\end{align}

ここに、\(h(n)\)は\(\lim_{n\to \infty}h(n) = 0\)を満たす任意の関数である。したがって、\(n \to \infty\)のとき\eqref{eq3}は

\begin{align}\lim_{n\to \infty} \phi_{Z}(t) = \lim_{n \to \infty }\left[1 - \cfrac{1}{2n}\sigma^2 t^2 + O(n^{-\frac{3}{2}}) \right]^n = e^{-\frac{\sigma^2 }{2}t^2}\end{align}

である。これは、平均\(0\)、分散\(\sigma^2 \)の正規分布の特性関数である。よって中心極限定理が示された。□

中心極限定理が重要である理由として、確率変数\(X_1,X_2, \ldots,X_n\)が従う分布が正規分布でなくても、正規近似が可能である点である。補足として、母集団の分布が正規分布から大きくずれている分、標本数\(n\)を大きくする必要がある。

多変量の中心極限定理

続いて、\eqref{eq1}の定理を多変量の確率変数に拡張したものについて見ていく。

次のように、\(m\)次元の確率ベクトルに対しても同様の極限定理が成り立つ。

多変量の中心極限定理

\(n\)次元確率ベクトル\(\boldsymbol{X}_1, \boldsymbol{X}_2, \ldots \boldsymbol{X}_n\)は独立であり、平均ベクトル\(\mathrm{E}[\boldsymbol{X}_{k}] = \boldsymbol{\mu}\)、共分散行列\(\mathrm{E}[(\boldsymbol{X}_{k} - \boldsymbol{\mu})(\boldsymbol{X}_{k} - \boldsymbol{\mu})^T] = \boldsymbol{\Sigma}\)をもつ同一な分布に従うとする。このとき\(n\to\infty\)の下で次が成り立つ。

\begin{align}\boldsymbol{Z} =\sqrt{n} (\bar{\boldsymbol{X}} - \boldsymbol{\mu}) \sim N(\boldsymbol{0},\boldsymbol{\Sigma}), \quad n \to \infty, \end{align}

ここに\(\bar{\boldsymbol{X}}= (1/n) \sum_{k=1}^n \boldsymbol{X}_k\)。

証明　\(\phi_n(\boldsymbol{t}, u)\)を次で定義する。

\begin{align} \phi_n(\boldsymbol{t}, u) &=\mathrm{E}\left[\exp\left\{iu\boldsymbol{t}^T\boldsymbol{Z}\right\}\right]\\ &= \mathrm{E}\left[\exp\left\{iu\boldsymbol{t}^T\sqrt{n}(\bar{\boldsymbol{X}} - \boldsymbol{\mu}) \right\}\right] \\ &= \mathrm{E}\left[\exp\left\{iu\boldsymbol{t}^T\cfrac{1}{\sqrt{n}}\sum_{k =1}^n(\boldsymbol{X}_{k} - \boldsymbol{\mu}) \right\}\right], \end{align}

ここに\(u\)はスカラーであり、\(\boldsymbol{t}\)は\(m\)次元ベクトルとする。\(\boldsymbol{t}\)を固定すると\(\phi_n(\boldsymbol{t}, u)\)は\(\boldsymbol{t}^T \boldsymbol{Z} =(1/\sqrt{n})\sum_{k =1}^n(\boldsymbol{t}^T\boldsymbol{X}_{k} - \mathrm{E}[\boldsymbol{t}^T\boldsymbol{X}_{k} ])\)の特性関数であると考えられる。単変量中心極限定理より、\((1/\sqrt{n}) \sum_{k=1}^n(\boldsymbol{t}^T\boldsymbol{X}_{k} - \mathrm{E}[\boldsymbol{t}^T\boldsymbol{X}_{k}])\)は漸近的に\(N(\boldsymbol{0}, \boldsymbol{t}^T\boldsymbol{\Sigma t})\)に従う。したがって任意の\(u\)と\(\boldsymbol{t}\)に対して

\begin{align} \lim_{n\to\infty} \phi_n(\boldsymbol{t}, u) &= e^{iu\cdot0 - \frac{1}{2}u^2\boldsymbol{t}^T\boldsymbol{\Sigma}\boldsymbol{t}}\\ &= e^{-\frac{1}{2}u^2\boldsymbol{t}^T\boldsymbol{\Sigma}\boldsymbol{t}}.\end{align}

ここで\(u=1\)とすると、任意の\(\boldsymbol{t}\)に対して次を得る。

\begin{align} \mathrm{E}\left[\exp\left\{i\boldsymbol{t}^T\boldsymbol{Z}\right\}\right] &= \lim_{n\to\infty} \mathrm{E}\left[\exp\left\{i \boldsymbol{t}^T\cfrac{1}{\sqrt{n}}\sum_{k=1}^n (\boldsymbol{X}_{k}- \boldsymbol{\mu})\right\}\right] \\ &= \lim_{n\to\infty} \phi_n(\boldsymbol{t}, 1)\\\label{eq4} &= e^{-\frac{1}{2} \boldsymbol{t}^T\boldsymbol{\Sigma}\boldsymbol{t}}.\tag{4} \end{align}

また、\eqref{eq4}の左辺は\( \boldsymbol{Z} = \sqrt{n} ( \bar{\boldsymbol{X}} - \boldsymbol{\mu})\)の特性関数であり、右辺は平均ベクトル\(\boldsymbol{0}\)、共分散行列\(\boldsymbol{\Sigma}\)の多変量正規分布の特性関数と一致する。また、\(e^{-\frac{1}{2} \boldsymbol{t}^T\boldsymbol{\Sigma}\boldsymbol{t}}\)は\(\boldsymbol{t} = \boldsymbol{0}\)で連続であるので、\(\boldsymbol{t} = \boldsymbol{0}\)において極限が一意に存在する。したがって定理が証明された。□