【統計学】母比率の検定・母比率の差の検定

通常の1標本の母比率の検定や2標本の母比率の差の検定を含む様々な母比率の検定を解説する。

ここでは、Z検定を用いた大標本の下で母比率の検定について紹介し、検定統計量や棄却域の導出を行う。

大標本における検定方法であるZ検定については、以下の記事を参照。

: 【統計学】Z検定・大標本における母平均の検定
大標本における仮説検定方法のうち最も用いられるZ検定について解説する。 Studentのt検定と同様に、仮説によって検定統計量が異なるため、様々な検定が存在する。その中でも重要な検定（1標本検定や2 ...
続きを見る

母比率の検定

標本数が十分大きい場合の母比率の検定方法をみていく。ここで紹介する検定は一般的にZ検定と呼ばれ、中心極限定理によって検定統計量が正規近似できることを利用している。

母比率の検定

\(x_1, \ldots, x_n\)は\(Bernoulli(p)\)からの独立同一な標本であり、標本数\(n\)は十分に大きいと仮定する。このとき、次の「母比率\(p\)は特定の値\(p_0\)であるか」の仮説を検定する。

\begin{align}&H_0: p= p_0 \\&H_1: p\neq p_0\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq1} Z= \cfrac{\hat{p}- p_0}{\sqrt{ p_0 (1 - p_0) / n}} \sim N(0, 1). \tag{1}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2}) \cup (Z_{\alpha/2}, \infty),\end{align}

ここに、\(\hat{p}\)は次で与えられる母比率の推定値の確率変数であり、\(Z_{\alpha/2}\)は標準正規分布の上側\(\alpha/2\)の確率点である。

\begin{align}\hat{p} = \cfrac{1}{n}\sum_{i=1}^n X_i.\end{align}

帰無仮説の下で

\begin{align} \mathrm{E}\left[\hat{p}\right] &= p_0, \\ \mathrm{Var}\left[\hat{p}\right] &= p_0(1-p_0) / n \end{align}

であることから、中心極限定理により

\begin{align} \cfrac{\hat{p} - p_0}{\sqrt{ p_0(1 - p_0)/ n }} \sim N(0, 1)\end{align}

である。したがって、\(n\)が十分に大きいとき、\eqref{eq1}は標準正規分布に従う。Z検定で解説したように、有意水準\(\varepsilon\)の検定の棄却域は、次の不等式を満たす標準正規分布の両側\(\varepsilon/2\)点から求めることができる。

\begin{align}|Z| < Z(\varepsilon / 2).\end{align}

母比率の差の検定

母比率の差の検定は母比率についての2標本検定であり、2つの母集団の母比率の差に関する検定である。

母比率の差の検定

\(x_{11}, \ldots, x_{1n_1}\)は\(Bernoulli(p_1)\)からの独立同一な標本であり、\(x_{21}, \ldots, x_{2n_2}\)は\(Bernoulli(p_2)\)からの独立同一な標本であるとする。また、標本数\(n_1\)と\(n_2\)は十分に大きいと仮定する。このとき、次の「2つの母集団の母比率\(p_1\)と\(p_2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: p_1 = p_2 \\&H_1: p_1\neq p_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq3} Z = \cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}} \sim N(0, 1).\tag{3}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2}) \cup (Z_{\alpha/2}, \infty),\end{align}

ここに、\(\hat{p}\)、\(\hat{p}_1\)、\(\hat{p}_2\)は次で与えられる。

\begin{align}\hat{p} &= \cfrac{n_1\hat{p}_1 +n_2\hat{p}_2}{n_1 + n_2},\\ \hat{p}_i &=\cfrac{1}{n_i}\sum_{j=1}^{n_i}X_{ij},\ \ i = 1, 2.\end{align}

\(p = p_1 = p_2\)とおく。帰無仮説の下では

\begin{align}\mathrm{E}\left[\hat{p}_1 - \hat{p}_2\right] &= 0,\\ \mathrm{Var}[\hat{p}_1 - \hat{p}_2] &= \cfrac{1}{n_1}p(1 - p) + \cfrac{1}{n_2} p(1 - p)\\ &= p(1 - p)\left(\cfrac{1}{n_1} + \cfrac{1}{n_2}\right).\end{align}

である。\(\hat{p}\)は、独立同一に\(Bernoulli(p)\)に従う\(n_1 + n_2\)個の確率変数の和から成り、\(\hat{p}\)の期待値と分散はそれぞれ\(\mathrm{E}[\hat{p}]\)、\(\mathrm{Var}[\hat{p}]\)となる。ゆえにチェビシェフの不等式より、\(p = p_1 = p_2\)の一致推定量であることが分かる。

\begin{align} \underset{n_1,n_2 \to \infty}{\mathrm{plim}} \hat{p} &=\underset{n_1,n_2 \to \infty}{\mathrm{plim}}\cfrac{n_1 \hat{p}_1 + n_2\hat{p}_2}{n_1 + n_2}\\ &= \underset{n_1,n_2 \to \infty}{\mathrm{plim}}\cfrac{1}{n_1 + n_2}\sum_{i=1}^2\sum_{j=1}^{n_i} X_{ij}\\ &= p.\end{align}

したがって、確率変数の和、差、積、商の確率極限は確率極限の和、差、積、商であることから

\begin{align} &\cfrac{\hat{p}_1 - \hat{p}_2}{p(1 - p) (1/n_1 + 1 /n_2 )} \overset{d}{\to} Y, \\& \sqrt{\cfrac{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}{p(1 - p)\left(1 / n_1 + 1 / n_2 \right)}}= \sqrt{\cfrac{\hat{p}(1 - \hat{p})}{\sqrt{p(1 - p)}}} \overset{p}{\to} 1 .\end{align}

ここに\(Y\sim N(0, 1)\)。よってスラツキーの定理より

\begin{align} \cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}} &= \cfrac{\frac{\hat{p}_1 - \hat{p}_2}{ \sqrt{\hat{p}(1 - \hat{p})(1/ n_1+ 1/ n_2)}}}{\sqrt{ \frac{\hat{p}(1 - \hat{p})}{ p(1 - p)} }} \overset{d}{\to} \cfrac{Y}{1} = Y \sim N(0, 1) .\end{align}

補足

帰無仮説が\(H_0:\ p_1 - p_2 = 0.1\neq0\)のような場合、\eqref{eq3}のプールした標本分散を用いることができないことに注意。このような場合、検定統計量は次となる。

\begin{align}Z = \cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\cfrac{1}{n_1}\hat{p}_1(1- \hat{p}_1) + \cfrac{1}{n_2}\hat{p}_2(1- \hat{p}_2)}} . \end{align}

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
【統計学】指数分布の確率密度関数
指数分布の確率密度関数について解説する。指数分布の確率密度関数の定義を与え、解釈の仕方や指数分布の例についてを紹介する。また、幾何分布やポアソン分布との関係についても触れる。指数分布の期待値と分 ...

: 統計学
【統計学】一致推定量・統計量の一致性
統計量における推定量の1つである一致推定量についてみていく。推定量の一致性はZ検定などの大標本においてきわめて重要である。この記事では、一致推定量の定義を与えて種々の推定量（標本平均や標本分散）が ...

: 統計学
多変量の離散分布のモーメント　多項分布の期待値・分散・共分散【統計学】
多変量の離散確率分布である多項分布のモーメントについてみていく。離散確率分布のモーメントの定義より、多項分布の期待値、分散、共分散を導出する。単変量の離散確率分布のモーメントに関しては、離散分布の ...

: 統計学
【統計学】カイ二乗分布の正規近似　自由度が無限大のときのカイ二乗統計量
カイ二乗分布の正規近似について解説する。中心極限定理を用いることで、自由度が無限大のときのカイ二乗分布の漸近分布を証明する。また、そのほかにも単純な中心極限定理を用いた統計量よりも速く収束する統計 ...

: 統計学
【統計学】標本平均や標本分散　記述統計
標本平均や標本分散、標本標準偏差、標本標準誤差について解説する。標本平均と標本分散の定義を与え、実際にデータから標本平均や標本分散を計算する例を紹介する。標本中央値や四分位数、標本相関係数について ...

【R言語】母比率の検定・母比率の差の検定

【統計学】ウィルコクソンの順位和検定

【統計学】母比率の検定・母比率の差の検定

【統計学】Z検定・大標本における母平均の検定

母比率の検定

母比率の差の検定