二項分布の正規近似についての定理であるド・モアブル=ラプラスの定理を解説する。
二項分布の確率質量関数をパラメータ\(n\)に関して近似することで、\(n\)が十分に大きいとき二項分布は正規分布に漸近的に従うことを証明する。
中心極限定理については次の記事を参照されたい。
また、二項分布と他の分布との関係は以下を参照。
-
【統計学】二項分布とポアソン分布の関係 ポアソンの極限定理
二項分布とポアソン分布の関係についてであるポアソンの極限定理とその証明を解説する。 二項分布のパラメータ\(p\)が十分に小さいとき\(n\)を大きくすると、二項分布に従う確率変数はポアソン分布に従う ...
続きを見る
-
【統計学】超幾何分布の二項分布への収束
超幾何分布の性質の1つである二項分布への収束を解説する。 超幾何分布のパラメータ\(N\)が十分に大きいときに、超幾何分布の確率質量関数が二項分布の確率質量関数となることを示す。 二項分布とその他の分 ...
続きを見る
統計学の入門書におすすめ!
¥3,080 (2022/06/27 19:34時点 | Amazon調べ)
ポチップ 統計学の基礎を学習したい方へ
¥2,420 (2022/06/08 18:12時点 | Amazon調べ)
ポチップ
ド・モアブル=ラプラスの定理
ド・モアブル=ラプラスの定理
\(X\)を二項分布\(B(n, p)\)に従う確率変数とする。\(np \)近傍である\(k\)に対して、\(n\)が十分に大きいとき\(X\)の確率質量関数は次となる。
\begin{align}\lim_{n\to \infty}\mathrm{Pr}\{ X = k\} = \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - \cfrac{(k - np)^2}{2np ( 1- p)}\right\},\quad k \in\{0, 1, \ldots, n\}.\end{align}
上の右辺は平均\(np\)、分散\(np(1-p)\)の正規分布の確率密度関数であり、\(n\)が大きいとき二項分布は正規近似に収束することを意味する。
証明 確率変数\(X\)は二項分布\(B(n, p)\)に従うとする。次のスターリングの公式
\begin{align}n! \approx \sqrt{2\pi n }(n / e)^n\end{align}
と
\begin{align} \lim_{n\to \infty} \cfrac{k}{n} = p\end{align}
より、\(k = np + z\sqrt{np(1 - p)}\)に対して\(X\)の確率質量関数は次のように近似できる。
\begin{align} \mathrm{Pr}\{X= k\} &= \begin{pmatrix} n \\ k\end{pmatrix} p^k (1 -p)^{n - k}\\ &= \cfrac{n!}{k! (n- k )!}p^k (1 -p)^{n - k}\\ &\approx \cfrac{ \sqrt{2\pi n }(n / e)^n}{ \sqrt{2\pi k }(k / e)^k \sqrt{2\pi (n -k) }\bigl\{(n- k) / e\bigr\}^{n - k} } p^k (1 -p)^{n - k}\\ &= \sqrt{\cfrac{1}{2\pi n( k/ n) (1- k / n) }} \left(\cfrac{np}{k}\right)^{k} \left\{\cfrac{n(1-p)}{n -k}\right\}^{n -k } \\ &\approx \sqrt{\cfrac{1}{2\pi np (1-p) }} \left(\cfrac{np}{k}\right)^{k} \left\{\cfrac{n(1-p)}{n -k}\right\}^{n -k }. \end{align}
ここで、\(e^{\log x} = x\)と
\begin{align}&\sqrt{\cfrac{1}{2\pi np (1-p) }} \left(\cfrac{np}{k}\right)^{k} \left\{\cfrac{n(1-p)}{n -k}\right\}^{n -k }\\ &=\sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{k \log\cfrac{np}{k} \right\} \cdot \exp\left\{ (n - k) \log \cfrac{n(1-p)}{n -k}\right\} \\&= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - k \log\cfrac{k}{np} - (n - k) \log \cfrac{n -k}{n( 1 - p)} \right\} \\&= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - k \log\cfrac{np + z\sqrt{np(1 - p)}}{np} - (n - k) \log \cfrac{n - np - z\sqrt{np(1 - p)}}{n( 1 - p)} \right\}\\ &= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - k \log \left(1 + z \sqrt{\cfrac{1 - p}{np}} \right) - (n - k) \log \left( 1 - z \sqrt{\cfrac{ p}{n(1 - p)}} \right) \right\} \end{align}
次に、テイラー展開
\begin{align}\log (1 + x) \approx x - \cfrac{x^2}{2} + \cdots \end{align}
を適用することで
\begin{align}& \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - k \log \left(1 + z\sqrt{\cfrac{(1 - p)}{np}} \right) - (n - k) \log \left( 1 - z\sqrt{\cfrac{ p}{n( 1 - p)}} \right) \right\} \\ &= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - k \left( z\sqrt{\cfrac{(1 - p)}{np}} - \cfrac{1}{2} z^2\cfrac{(1 - p)}{np} + O(n^{-3/2}) \right) \right. \\ &\qquad\qquad\qquad\qquad\qquad\ \left. - (n - k) \left( - z\sqrt{\cfrac{ p}{n( 1 - p)}} + \cfrac{1}{2} z^2\cfrac{ p}{n( 1 - p)} + O(n^{- 3/2})\right) \right\}\\ &= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - \left\{ np + z\sqrt{np(1-p)} \right\} \left( z\sqrt{\cfrac{(1 - p)}{np}} - \cfrac{1}{2} z^2\cfrac{(1 - p)}{np} + O(n^{-3/2}) \right) \right. \\ &\qquad\qquad\qquad\qquad\qquad\ \left. - \left\{n (1 - p) - z\sqrt{np(1-p)} \right\} \left( - z\sqrt{\cfrac{ p}{n( 1 - p)}} + \cfrac{1}{2} z^2\cfrac{ p}{n( 1 - p)} + O(n^{- 3/2})\right) \right\} \\ &= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - z\sqrt{np(1 - p)} + \cfrac{z^2}{2}(1 - p) - z^2 (1 - p) + O(n^{-1/2}) \right. \\ &\qquad\qquad\qquad\qquad\qquad\ \left. + z\sqrt{np(1 - p)} - \cfrac{z^2}{2}p - z^2p + O(n^{-1/2}) \right\} \\ &= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - \cfrac{z^2}{2} (1 - p) -\cfrac{z^2}{2}p + O(n^{-1/2}) \right\}\\ &= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - \cfrac{z^2}{2} + O(n^{-1/2}) \right\}. \\&= \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ - \cfrac{(k - np)^2}{2np(1-p)} + O(n^{-1/2}) \right\} \end{align}
したがって、\(n\)が十分大きい下で
\begin{align}\mathrm{Pr}\{X = k\} &\approx \sqrt{\cfrac{1}{2\pi np (1-p) }} \exp\left\{ -\cfrac{(k - np)^2}{2np(1-p)} \right\} .\end{align}
右辺は標準正規分布の確率密度関数であり、定理1が示された。
中心極限定理との関係
ド・モアブル=ラプラスの定理は、確率変数が独立同一にベルヌーイ分布に従う際の中心極限定理といえる。今、確率変数\(X_1, X_2, \ldots, X_n, \ i.i.d.\ \sim \mathrm{Bernoulli}(p)\)とすると、
\begin{align}\mu = \mathrm{E}[X_i] = p, \quad \sigma^2 = \mathrm{Var}[X_i] = p( 1 - p), \quad i = 1,2, \ldots, n\end{align}
であることから、中心極限定理より\(n\)が十分に大きいとき
\begin{align}Z &= \sqrt{n}(\bar{X} - \mu) / \sigma\\ \label{eq1} &= \cfrac{\bar{X} - p }{\sqrt{p(1-p)/ n}} \sim N(0, 1). \tag{1}\end{align}
ベルヌーイ分布の確率変数\(X_1,X_2, \ldots, X_n\)の和は二項分布に従うことから\(n\bar{X}\sim B(n, p)\)である。\eqref{eq1}は\(\bar{X} \sim N(p, p(1-p) / n)\)を意味し、\( n\bar{X} \sim N(np, np(1-p))\)であることがいえる。これは、ド・モアブル=ラプラスの定理の主張と一致する。