母比率および母比率の差の信頼区間について解説する。
大標本の下での母比率の信頼区間とその導出方法についてみていく。
精密法と呼ばれる正確な母比率の信頼区間については次の記事を参照されたい。
-
【統計学】二項分布とF分布の関係 精密法
二項分布とF分布の関係を解説する。 二項分布の分布関数をF分布の分布関数で表現できることを証明する。 母比率の信頼区間を0から1に抑えることができ、より正確な信頼区間を与えることができる。 大標本の下 ...
続きを見る
信頼区間
信頼区間の定義は次で与えられる。
信頼区間
\(x_1, x_2,\ldots, x_n\)はパラメータ\(\theta\)をもつ分布からの大きさ\(n\)の標本とする。このとき、パラメータ\(\theta\)をもつ統計量を\(g(\theta)\)とすると、\(\theta\)の\(100(1 - \alpha ) \)%信頼区間は
\begin{align}\label{eq1} \mathrm{Pr}\{ l \leq g( \theta) \leq u\} = 1-\alpha \tag{1}\end{align}
を満たす区間\([l, u]\)で与えられる。
例えば\(\alpha = 0.05\)であるとき、\eqref{eq1}はパラメータ\(\theta\)は\(l\)と\(u\)の間に95%で存在することを意味する。また、\((1- \alpha)\)は信頼水準(confidence level, C.I.)と呼ばれる。
母比率の信頼区間
ベルヌーイ分布\(\mathrm{Bernoulli}(p)\)からの大きさ\(n\)の無作為標本\(x_1, \ldots, x_n\)が得られたときの、母比率\(p\)の\(100(1- \alpha)\)%信頼区間を紹介する。以降、標本比率を\(\hat{p} = (1 /n) \sum_{i = 1}^n x_i\)、標準正規分布の上側\(\alpha\)点を\(Z_{\alpha}\)とする。
母比率の信頼区間
母比率\(p\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq2} \left[ \hat{p} - \sqrt{\cfrac{\hat{p}(1 - \hat{p})}{n}} Z_{\alpha/2} , \hat{p} + \sqrt{\cfrac{\hat{p}(1- \hat{p})}{n}} Z_{\alpha/2}\right]. \tag{2} \end{align}
次に、ベルヌーイ分布\(\mathrm{Bernoulli}(p_1)\)から大きさ\(n_1\)の無作為標本\(x_{11}, \ldots, x_{1n_1}\)、\(\mathrm{Bernoulli}(p_2)\)大きさ\(n_2\)の無作為標本\(x_{21}, \ldots, x_{2n_2}\)が得られたときの、母比率の差\(p_1 - p_2\)の\(100(1- \alpha)\)%信頼区間を紹介する。各群の標本比率を\(\hat{p}_i = (1 /n_i) \sum_{j = 1}^{n_i} x_{ij}\)とする。
母比率の差の信頼区間
母平均の差\(p_1- p_2\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq3} \left[ \hat{p}_1 - \hat{p}_2 - \sqrt{\cfrac{\hat{p}_1 ( 1 - \hat{p}_1)}{n_1} + \cfrac{\hat{p}_2 ( 1 - \hat{p}_2)}{n_2} } Z_{ \alpha/2} , \hat{p}_1 - \hat{p}_2 + \sqrt{\cfrac{\hat{p}_1 ( 1 - \hat{p}_1)}{n_1} + \cfrac{\hat{p}_2 ( 1 - \hat{p}_2)}{n_2}} Z_{\alpha/2}\right], \tag{3}\end{align}
母比率の信頼区間の導出
ベルヌーイ分布\(\mathrm{Bernoulli}(p)\)からの大きさ\(n\)の無作為標本\(x_1, x_2 , \ldots, x_n\)が得られたときの、母比率\(p\)の\(100(1- \alpha)\)%信頼区間の導出を行う。以降、導出の際に\(x_1, x_2, \ldots, x_n\)に対応する確率変数を\(X_1, X_2, \ldots, X_n\)とする。
母比率の信頼区間
\(X_1, X_2, \ldots, X_n\)は独立に同一のベルヌーイ分布\(\mathrm{Bernoulli}(p)\)に従う。また、
\begin{gather} \mathrm{E}[X_i] = p, \quad \mathrm{Var}[X_i] = p(1 - p), i = 1, 2 , \ldots, n \end{gather}
である。\(n\)が十分に大きいとき、中心極限定理より次が成り立つ。
\begin{align}& \cfrac{\sqrt{n}(\hat{p} - p ) }{\sqrt{p(1 - p)}} \sim N(0 , 1)\\ &\Leftrightarrow \hat{p} \sim N\left(p, \cfrac{1}{n}p(1 - p)\right).\end{align}
ここで、\(\mathrm{plim}_{n\to \infty} \hat{p} = p\)より、分散\(\mathrm{Var}[X_i] \)を\(\hat{p}\)で置き換えたものは次のように一致性をもつ。
\begin{align} \underset{n \to \infty}{\mathrm{plim}} \hat{p}(1 - \hat{p}) = p(1- p).\end{align}
よって、\(n\)が十分に大きいときに次がいえる。
\begin{align}Z &= \cfrac{\sqrt{n}(\hat{p} - p)}{ \sqrt{\hat{p}(1 - \hat{p})}} \sim N(0, 1).\end{align}
ここで、標準正規分布の上側\(\alpha\)%点を\(Z_{\alpha}\)とすると、確率変数\(Z\)は次を満たす。
\begin{align} &\mathrm{Pr}\{ -Z_{\alpha / 2} \leq Z \leq Z_{\alpha / 2}\} =1- \alpha\\ &\Leftrightarrow \mathrm{Pr}\left\{ -Z_{\alpha / 2} \leq \cfrac{\hat{p} - p}{\sqrt{\hat{p}(1 - \hat{p}) / n}} \leq Z_{\alpha / 2}\right\} =1- \alpha.\end{align}
よって\eqref{eq1}より、\(\sqrt{n}(\hat{p} - p) / \{\hat{p}(1 - \hat{p})\} \)の信頼区間は次ので表される。
\begin{align}-Z_{\alpha / 2} \leq \cfrac{\hat{p} - p}{\sqrt{\hat{p}(1 - \hat{p}) / n}} \leq Z_{\alpha / 2}. \end{align}
故に標本\(x_1, \ldots, x_n\)が与えられたとき、\(p\)について式変形を行うと\eqref{eq2}の母比率\(p\)の信頼区間を得る。
\begin{align} & - Z_{\alpha/2} \leq \cfrac{(\hat{p} - p)}{\sqrt{\hat{p}(1 - \hat{p}) / n}} \leq Z_{\alpha/2} \\ &\Leftrightarrow \hat{p} - \sqrt{\cfrac{\hat{p}(1 - \hat{p})}{n}} Z_{\alpha/2} \leq p \leq \hat{p} + \sqrt{\cfrac{\hat{p}(1 - \hat{p})}{n}} Z_{\alpha/2}. \end{align}
母比率の差の信頼区間
\(X_{11}, X_{12}, \ldots, X_{1n_1}\)は独立にベルヌーイ分布\(\mathrm{Bernoulli}(p_1)\)、\(X_{21}, X_{22}, \ldots, X_{2n_2}\)は独立にベルヌーイ分布\(\mathrm{Bernoulli}(p_2)\)に従う。また、
\begin{gather} \mathrm{E}[X_{ij}] = p_i, \quad \mathrm{Var}[X_{ij}] = p_i(1 - p_i), i = 1, 2, \quad j = 1, 2 , \ldots, n_i \end{gather}
である。母平均の信頼区間と同様に、\(n_i\)が十分に大きいときに中心極限定理より次が成り立つ。
\begin{align}& \cfrac{\sqrt{n}(\hat{p}_i -p_i)}{\sqrt{p_i (1 - p_i)}} \sim N(0, 1) \\ &\Leftrightarrow \hat{p}_i \sim N\left(p_i, \cfrac{1}{n_i}p_i(1 - p_i)\right).\end{align}
したがって、\(\hat{p}_1\)と\(\hat{p}_2\)は独立であることから、
\begin{align}& \hat{p}_1 - \hat{p}_2 \sim N\left(p_1 - p_2, \cfrac{1}{n_1}p_1(1 - p_1) + \cfrac{1}{n_2}p_2(1 - p_2) \right)\\ &\Leftrightarrow \cfrac{\hat{p}_1 - \hat{p}_2 - (p_1 - p_2)}{\sqrt{ p_1(1 - p_1) /n_1 + p_2(1 - p_2) / n_2}} \sim N(0, 1).\end{align}
ここで、\(\mathrm{plim}_{n\to \infty} \hat{p}_i = p_i\)であることから、\(\hat{p}_i\)の分散を一致推定量で置き換えたものは次のように分散に確率収束する。
\begin{align}\underset{n\to \infty}{\mathrm{plim}} \hat{p}_i(1 - \hat{p}_i) = p_i(1- p_i).\end{align}
よって、\(n_1\)と\(n_2\)が十分に大きいとき
\begin{align}Z= \cfrac{\hat{p}_1 - \hat{p}_2 - (p_1 - p_2)}{\sqrt{\hat{p}_1(1 - \hat{p}_1) / n_1 + \hat{p}_2(1 - \hat{p}_2)/ n_2 }} \sim N(0, 1).\end{align}
よって、標準正規分布の上側\(\alpha\)%点を\(Z_{\alpha}\)とすると、確率変数\(Z\)は次を満たす。
\begin{align} &\mathrm{Pr}\{ -Z_{\alpha / 2} \leq Z \leq Z_{\alpha / 2}\} =1- \alpha\\ &\Leftrightarrow \mathrm{Pr}\{ -Z_{ \alpha / 2} \leq \cfrac{\hat{p}_1 - \hat{p}_2 - (p_1 - p_2)}{\sqrt{\hat{p}_1(1 - \hat{p}_1) / n_1 + \hat{p}_2(1 - \hat{p}_2)/ n_2 }} \leq Z_{ \alpha / 2}\} =1- \alpha.\end{align}
よって\eqref{eq1}より、\(Z\)の信頼区間は次ので表される。
\begin{align} -Z_{\alpha / 2} \leq \cfrac{\hat{p}_1 - \hat{p}_2 - (p_1 - p_2)}{\sqrt{\hat{p}_1(1 - \hat{p}_1) / n_1 + \hat{p}_2(1 - \hat{p}_2)/ n_2 }} \leq Z_{\alpha / 2}. \end{align}
故に標本\(x_{11}, x_{12} \ldots, x_{1n_1}\)、\(x_{21}, x_{22} \ldots, x_{2n_2}\)が与えられたとき、\(p_1 - p_2\)について式変形を行うと\eqref{eq3}の母比率の差\(p_1 - p_2\)の信頼区間を得る。
\begin{align} & - Z_{ \alpha/2} \leq \cfrac{\hat{p}_1 - \hat{p}_2 - (p_1 - p_2)}{\sqrt{\hat{p}_1(1 - \hat{p}_1) / n_1 + \hat{p}_2(1 - \hat{p}_2)/ n_2 }} \leq Z_{\alpha/2} \\ &\Leftrightarrow \hat{p}_1 - \hat{p}_2 - \sqrt{\cfrac{\hat{p}_1 ( 1 - \hat{p}_1)}{n_1} + \cfrac{\hat{p}_2 ( 1 - \hat{p}_2)}{n_2} } Z_{ \alpha/2} \leq p_1 - p_2 \leq \hat{p}_1 - \hat{p}_2 + \sqrt{\cfrac{\hat{p}_1 ( 1 - \hat{p}_1)}{n_1} + \cfrac{\hat{p}_2 ( 1 - \hat{p}_2)}{n_2}} Z_{\alpha/2}. \end{align}