通常の1標本の母比率の検定や2標本の母比率の差の検定を含む様々な母比率の検定を解説する。
ここでは、Z検定を用いた大標本の下で母比率の検定について紹介し、検定統計量や棄却域の導出を行う。
大標本における検定方法であるZ検定については、以下の記事を参照。
-
【統計学】Z検定・大標本における母平均の検定
大標本における仮説検定方法のうち最も用いられるZ検定について解説する。 Studentのt検定と同様に、仮説によって検定統計量が異なるため、様々な検定が存在する。 その中でも重要な検定(1標本検定や2 ...
続きを見る
母比率の検定
標本数が十分大きい場合の母比率の検定方法をみていく。ここで紹介する検定は一般的にZ検定と呼ばれ、中心極限定理によって検定統計量が正規近似できることを利用している。
母比率の検定
\(x_1, \ldots, x_n\)は\(Bernoulli(p)\)からの独立同一な標本であり、標本数\(n\)は十分に大きいと仮定する。このとき、次の「母比率\(p\)は特定の値\(p_0\)であるか」の仮説を検定する。
\begin{align}&H_0: p= p_0 \\&H_1: p\neq p_0\end{align}
検定統計量として次を用いる。
\begin{align}\label{eq1} Z= \cfrac{\hat{p}- p_0}{\sqrt{ p_0 (1 - p_0) / n}} \sim N(0, 1). \tag{1}\end{align}
また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。
\begin{align}(-\infty,- Z_{\alpha/2}) \cup (Z_{\alpha/2}, \infty),\end{align}
ここに、\(\hat{p}\)は次で与えられる母比率の推定値の確率変数であり、\(Z_{\alpha/2}\)は標準正規分布の上側\(\alpha/2\)の確率点である。
\begin{align}\hat{p} = \cfrac{1}{n}\sum_{i=1}^n X_i.\end{align}
帰無仮説の下で
\begin{align} \mathrm{E}\left[\hat{p}\right] &= p_0, \\ \mathrm{Var}\left[\hat{p}\right] &= p_0(1-p_0) / n \end{align}
であることから、中心極限定理により
\begin{align} \cfrac{\hat{p} - p_0}{\sqrt{ p_0(1 - p_0)/ n }} \sim N(0, 1)\end{align}
である。したがって、\(n\)が十分に大きいとき、\eqref{eq1}は標準正規分布に従う。Z検定で解説したように、有意水準\(\varepsilon\)の検定の棄却域は、次の不等式を満たす標準正規分布の両側\(\varepsilon/2\)点から求めることができる。
\begin{align}|Z| < Z(\varepsilon / 2).\end{align}
母比率の差の検定
母比率の差の検定は母比率についての2標本検定であり、2つの母集団の母比率の差に関する検定である。
母比率の差の検定
\(x_{11}, \ldots, x_{1n_1}\)は\(Bernoulli(p_1)\)からの独立同一な標本であり、\(x_{21}, \ldots, x_{2n_2}\)は\(Bernoulli(p_2)\)からの独立同一な標本であるとする。また、標本数\(n_1\)と\(n_2\)は十分に大きいと仮定する。このとき、次の「2つの母集団の母比率\(p_1\)と\(p_2\)は等しいか」の仮説を検定する。
\begin{align}&H_0: p_1 = p_2 \\&H_1: p_1\neq p_2\end{align}
検定統計量として次を用いる。
\begin{align}\label{eq3} Z = \cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}} \sim N(0, 1).\tag{3}\end{align}
また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。
\begin{align}(-\infty,- Z_{\alpha/2}) \cup (Z_{\alpha/2}, \infty),\end{align}
ここに、\(\hat{p}\)、\(\hat{p}_1\)、\(\hat{p}_2\)は次で与えられる。
\begin{align}\hat{p} &= \cfrac{n_1\hat{p}_1 +n_2\hat{p}_2}{n_1 + n_2},\\ \hat{p}_i &=\cfrac{1}{n_i}\sum_{j=1}^{n_i}X_{ij},\ \ i = 1, 2.\end{align}
\(p = p_1 = p_2\)とおく。帰無仮説の下では
\begin{align}\mathrm{E}\left[\hat{p}_1 - \hat{p}_2\right] &= 0,\\ \mathrm{Var}[\hat{p}_1 - \hat{p}_2] &= \cfrac{1}{n_1}p(1 - p) + \cfrac{1}{n_2} p(1 - p)\\ &= p(1 - p)\left(\cfrac{1}{n_1} + \cfrac{1}{n_2}\right).\end{align}
である。\(\hat{p}\)は、独立同一に\(Bernoulli(p)\)に従う\(n_1 + n_2\)個の確率変数の和から成り、\(\hat{p}\)の期待値と分散はそれぞれ\(\mathrm{E}[\hat{p}]\)、\(\mathrm{Var}[\hat{p}]\)となる。ゆえにチェビシェフの不等式より、\(p = p_1 = p_2\)の一致推定量であることが分かる。
\begin{align} \underset{n_1,n_2 \to \infty}{\mathrm{plim}} \hat{p} &=\underset{n_1,n_2 \to \infty}{\mathrm{plim}}\cfrac{n_1 \hat{p}_1 + n_2\hat{p}_2}{n_1 + n_2}\\ &= \underset{n_1,n_2 \to \infty}{\mathrm{plim}}\cfrac{1}{n_1 + n_2}\sum_{i=1}^2\sum_{j=1}^{n_i} X_{ij}\\ &= p.\end{align}
したがって、確率変数の和、差、積、商の確率極限は確率極限の和、差、積、商であることから
\begin{align} &\cfrac{\hat{p}_1 - \hat{p}_2}{p(1 - p) (1/n_1 + 1 /n_2 )} \overset{d}{\to} Y, \\& \sqrt{\cfrac{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}{p(1 - p)\left(1 / n_1 + 1 / n_2 \right)}}= \sqrt{\cfrac{\hat{p}(1 - \hat{p})}{\sqrt{p(1 - p)}}} \overset{p}{\to} 1 .\end{align}
ここに\(Y\sim N(0, 1)\)。よってスラツキーの定理より
\begin{align} \cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}} &= \cfrac{\frac{\hat{p}_1 - \hat{p}_2}{ \sqrt{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}}}{\sqrt{ \frac{\hat{p}(1 - \hat{p})}{ p(1 - p)} }} \overset{d}{\to} \cfrac{Y}{1} = Y \sim N(0, 1) .\end{align}
補足
帰無仮説が\(H_0:\ p_1 - p_2 = 0.1\neq0\)のような場合、\eqref{eq3}のプールした標本分散を用いることができないことに注意。このような場合、検定統計量は次となる。
\begin{align}Z = \cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\cfrac{1}{n_1}\hat{p}_1(1- \hat{p}_1) + \cfrac{1}{n_2}\hat{p}_2(1- \hat{p}_2)}} . \end{align}