【統計学】Z検定・大標本における母平均の検定

大標本における仮説検定方法のうち最も用いられるZ検定について解説する。

Studentのt検定と同様に、仮説によって検定統計量が異なるため、様々な検定が存在する。

その中でも重要な検定（1標本検定や2標本検定）を紹介する。また、近似的に検定統計量が正規分布に従うことも示す。

t検定については以下を参照されたい。

: 【統計学】t検定　母平均の検定・母平均の差の検定
ここでは、統計学の仮説検定において重要なStudentのt検定について解説する。母分布である正規分布のパラメータによって様々なt検定の手法が提案されている。その中でもよく使われるt検定についてみて ...
続きを見る

Z検定

Z検定とは、母分布の平均についての仮説検定であり、帰無仮説の下で検定統計量が標準正規分布に近似できる検定のことである。

大標本の場合、中心極限定理によりほとんどの統計量を正規分布に近似できることを利用するのがZ検定の特徴である。これは、標本数が大きいときには、Z検定を適用できることを意味する。

さらに、母分布の分散が既知、未知にかかわらず、Z検定を適用することが可能である。分散が未知である場合には、分散をその推定量（不偏推定量）で置き換えることで正規近似することができる。これは、推定量が分散に確率収束するためである。

前述した通り、仮説によって様々な検定方法が提案されている。以降、その中でも重要な検定方法についてみていく。

様々なZ検定

1標本検定

検定

Z検定・1標本検定

\(x_1, \ldots, x_n\)を平均\(\mu\)、分散\(\sigma^2\)をもつある分布からの無作為標本とし、\(X1, \ldots, X_n\)を対応する確率変数とする。また、標本数\(n\)は十分に大きいと仮定する。このとき、次の「平均\(\mu\)は特定の値\(\mu_0\)であるか」の仮説を検定する。

\begin{align}&H_0: \mu = \mu_0 \\&H_1: \mu\neq \mu_0\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq1} Z= \cfrac{\bar{X}- \mu_0}{\sigma /\sqrt{n}}\sim N(0, 1). \tag{1}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2}) \cup (Z_{\alpha/2}, \infty),\end{align}

ここに、\(\bar{X}\)は次で与えられる標本平均の確率変数であり、\(Z_{\alpha/2}\)は標準正規分布の上側\(\alpha/2\)の確率点である。

\begin{align}\bar{X} = \cfrac{1}{n}\sum_{i=1}^n X_i.\end{align}

\eqref{eq1}について、帰無仮説の下で、中心極限定理より\(Z= \sqrt{n}(\bar{X} - \mu_0 )/\sigma \sim N(0, 1)\)である。

また、母分布が正規分布でなくても中心極限定理により、1標本検定が可能である。帰無仮説の下で\begin{align}\mathrm{E}[\bar{X}] &= \mu_0,\\ \mathrm{Var}[\bar{X}] &= \sigma^2/n\end{align}であることから、中心極限定理により\begin{align} \sqrt{n}(\bar{X}-\mu_0) / \sigma \sim N(0, 1)\end{align}である。したがって、\(n\)が十分に大きいとき、\eqref{eq1}は標準正規分布に従う。

分散\(\sigma^2\)が未知である場合についてもZ検定を適用することができる。\(\sigma^2\)が未知であるとき次の検定統計量を用いる。

\begin{align}\label{eq2}Z = \cfrac{\bar{X} - \mu_0}{S / \sqrt{n}} , \tag{2}\end{align}

ここに、\(S^2\)は次で定義される不偏標本分散の確率変数である。

\begin{align}S^2 &= \cfrac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X})^2.\end{align}

\eqref{eq2}の分母の不偏標本分散について次がいえる。\begin{align}\lim_{n\to \infty} S^2 = \sigma^2\end{align}したがって、\(n\)が十分に大きいとき、\(\sqrt{n}(\bar{X}-\mu_0) \sim N(0, \sigma^2)\)であるため、検定統計量\(Z\)は標準正規分布に従う。

尤度比検定からの検定統計量の導出（母集団分布が正規分布）

次に、尤度比検定により\eqref{eq1}の検定統計量を導出する。\(x_1, \ldots, x_n\)はそれぞれ\(N(\mu, \sigma^2)\)からの独立同一な標本であると仮定する。このとき、母集団分布は次の確率密度関数を持つ。

\begin{align}f(x) = \cfrac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2}.\end{align}

次の尤度比\(\lambda\)を考える。

\begin{align}\lambda = \cfrac{\max_{\mu_0}L(\mu_0)}{\max_{\mu}L(\mu)},\end{align}

ここに、

\begin{align}L(\mu) = \prod_{i=1}^n \cfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x_i-\mu)^2} .\end{align}

最尤推定量より、対立仮説\(H_1\)の下での\(\mu\)の最尤推定量は次で与えられる。

\begin{align}\hat{\mu} &= \bar{x}.\end{align}よって、\(\lambda\)は次となる。\begin{align}\lambda &= \cfrac{L(\mu_0)}{L(\hat{\mu})} \\&= \cfrac{\cfrac{1}{(2\pi \sigma^2)^{\frac{n}{2}}} e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu_0)^2}}{\cfrac{1}{(2\pi\sigma^2)^{\frac{n}{2}}} e^{-\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i-\bar{x})^2}}\\ &= e^{-\frac{1}{2\sigma^2} \left[(x-\mu_0)^2 -(x-\bar{x})^2\right]}\\ &= e^{-\frac{n}{2\sigma^2}(\bar{x} - \mu_0)^2}.\end{align}

したがって、棄却域として次を用いればよい。

\begin{align}\lambda < \lambda(\varepsilon),\end{align}

ここに、\(\lambda(\varepsilon)\)は上式が確率\(\varepsilon\)で成り立つ定数である。棄却域に関して次が言える。

\begin{align}& e^{-\frac{n}{2\sigma^2}(\bar{x} - \mu_0)^2} < \lambda(\varepsilon) \\&\Leftrightarrow \frac{n}{\sigma^2}(\bar{x} - \mu_0)^2 > - 2\log \lambda(\varepsilon)\\&\Leftrightarrow \left|\sqrt{\frac{n}{\sigma^2}(\bar{x} - \mu_0)^2}\right| > \left\{-2\log \lambda(\varepsilon)\right\}^{\frac{1}{2}}\\ &\Leftrightarrow |Z| > \left\{-2\log \lambda(\varepsilon)\right\}^{\frac{1}{2}}\end{align}

故に、\(\lambda\)に関する棄却域の代わりに次を用いればよい。

\begin{align} |Z| < Z(\varepsilon),\end{align}

ここに、\(Z(\varepsilon) = \{-2\log \lambda(\varepsilon)\}^{\frac{1}{2}}\)であり、\(\lambda\)に関する不等式が確率\(\varepsilon\)で成り立つような定数である。\(Z\)は標準正規分布に従うため、\(Z(\varepsilon)\)を計算することが可能である。

2標本検定

分散\(\sigma_1^2\)と\(\sigma_2^2\)が等しい

Z検定・2標本検定（分散が等しい）

\(x_{11}, \ldots, x_{1n_1}\)を平均\(\mu_1\)、分散\(\sigma^2\)の分布、\(N(\mu_1, \sigma^2)\)を平均\(\mu_2\)、分散\(\sigma^2\)のある分布からの無作為標本とし、\(X_{11} , \ldots, X_{1n_1}\)と\(X_{21} , \ldots, X_{2n_2}\)を対応する確率変数とする。また、標本数\(n_1\)と\(n_2\)は十分に大きいと仮定する。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: \mu_1 = \mu_2 \\&H_1: \mu_1\neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq3} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{1/ n_1+ 1/ n_2}\sigma} \sim N(0, 1).\tag{3}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2} ) \cup ( Z_{\alpha/2}, \infty),\end{align}

ここに、\(\bar{X}_1\)と\(\bar{X}_2\)は次で与えられる。

\begin{align}\bar{X}_i =\cfrac{1}{n_i}\sum_{j=1}^{n_i}X_{ij},\ \ i = 1, 2.\end{align}

\eqref{eq3}について、帰無仮説の下で、中心極限定理より

\(Z= (\bar{X}_1 - \bar{X}_2)/(\sqrt{1/ n_1+ 1/ n_2} \sigma) \sim N(0, 1)\)

である。

分散\(\sigma^2\)が未知である場合は、検定統計量として次を用いる。

\begin{align}\label{eq4} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{1/ n_1+ 1/n_2}S} ,\tag{4}\end{align}

ここに、\(S^2\)は次で定義される不偏分散をプールしたものである。

\begin{align} S^2 &= \cfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2},\\S_i^2 &= \cfrac{1}{n_i-1}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2, \ \ i= 1,2.\end{align}

\(n_1\)と\(n_2\)が十分に大きいとき、次が成り立つ。

\begin{align}\lim_{n_1, n_2\to \infty} S^2 &= \lim_{n_1, n_2\to\infty} \cfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}\\&=\lim_{n_1, n_2\to\infty} \cfrac{1}{n_1+n_2-2}\sum_{i=1}^2\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2 \\&= \sigma^2.\end{align}

また、\eqref{eq4}について\(\bar{X}_1 - \bar{X}_2 \sim N[0, (1/n_1 +1/n_2)\sigma^2]\)であるため、\(n_1\)と\(n_2\)が十分に大きいとき、

\(Z= (\bar{X}_1 - \bar{X}_2)/(\sqrt{1/ n_1+ 1/ n_2}S)\sim N(0, 1)\)

である。

分散\(\sigma_1^2\)と\(\sigma_2^2\)が異なる

Z検定・2標本検定（分散が異なる）

\(x_{11}, \ldots, x_{1n_1}\)を平均\(\mu_1\)、分散\(\sigma_1^2\)の分布、\(x_{21}, \ldots, x_{2n_2}\)を平均\(\mu_2\)、分散\(\sigma_2^2\)の分布からの無作為標本とし、\(X_{11}, \ldots, X_{1n_1}\)と\(X_{21}, \ldots, X_{2n_2}\)を対応する確率変数とする。また、標本数\(n_1\)と\(n_2\)は十分に大きいと仮定する。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: \mu_1 = \mu_2 \\&H_1: \mu_1\neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq5} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{\sigma_1^2/ n_1+ \sigma_2^2/ n_2}} \sim N(0, 1),\tag{5}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2} ) \cup ( Z_{\alpha/2}, \infty).\end{align}

\eqref{eq5}について、帰無仮説の下で、中心極限定理より

\(Z= (\bar{X}_1 - \bar{X}_2)/\sqrt{\sigma_1^2/ n_1+ \sigma_2^2/ n_2} \sim N(0, 1)\)

である。

分散\(\sigma_1^2\)、\(\sigma_2^2\)が未知である場合は、検定統計量として次を用いる。

\begin{align}\label{eq6} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_1^2/ n_1+ S_2^2/ n_2}} \sim N(0, 1) ,\tag{6}\end{align}

ここに、\(S_1^2\)と\(S_2^2\)は次で与えられる不偏標本分散の確率変数である。

\begin{align}S_i^2 &= \cfrac{1}{n_i-1}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2.\end{align}

対応のある2標本検定

最後に、大標本での対応のある2標本検定についてみていく。

Z検定・対応のある2標本検定

\((x_{11}, x_{21}), \ldots, (x_{1n}, x_{2n})\)を平均ベクトル\(\boldsymbol{\mu}\)、共分散行列\(\boldsymbol{\Sigma}\)からの無作為標本とし、\((X_{11}, X_{21}), \ldots, (X_{1n}, X_{2n})\)を対応する確率ベクトルとする。また、標本数\(n\)は十分に大きいと仮定する。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)に差はないか」の仮説を検定する。検定統計量として次を用いる。

\begin{align}\label{eq7}Z = \cfrac{\bar{X}_D }{\sigma_D/\sqrt{n}} \sim N(0, 1).\tag{7}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2}) \cup ( Z_{\alpha/2}, \infty),\end{align}

ここに、\(\bar{X}_D\)と\(\sigma_D^2\)は次で定義される。

\begin{align}X_{Di} &= X_{1i}-X_{2i},\\\bar{X}_D &= \cfrac{1}{n}\sum_{i=1}^nX_{Di},\\ \sigma_D^2 &= \mathrm{Var}[X_{Di}].\end{align}

\eqref{eq7}について、帰無仮説の下で、中心極限定理より\(Z= \sqrt{n}\bar{X_D}/\sigma_D \sim N(0, 1)\)である。

分散\(\sigma_1^2\)、\(\sigma_2^2\)が未知である場合は、検定統計量として次を用いる。

\begin{align}Z= \cfrac{\bar{X}_D}{S_D/ \sqrt{n}} ,\end{align}

ここに、\(S_D^2\)は次で定義される。

\begin{align}S_D^2 &= \cfrac{1}{n-1}\sum_{i=1}^n(X_{Di} - \bar{X}_D)^2. \end{align}

\(n\)が十分に大きいとき、次が成り立つ。

\begin{align}\lim_{n\to \infty}S_D^2 &= \sigma_D^2.\end{align}

したがって、\(n\)が十分に大きいとき\(Z= \sqrt{n}\bar`{X}_D / S_D \sim N(0, 1)\)である。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
【統計学】正規分布の和の分布について
正規分布の和の分布について解説する。一般に独立な確率変数の和の分布が同じ分布に従うことは確率分布の再生性として知られており、様々な分布で成り立つ。その一方、独立でない分布の和の分布は同じ分布に従う ...

: 統計学
【統計学】二項分布とF分布の関係　精密法
二項分布とF分布の関係を解説する。二項分布の分布関数をF分布の分布関数で表現できることを証明する。母比率の信頼区間を0から1に抑えることができ、より正確な信頼区間を与えることができる。大標本の下 ...

: 統計学
連続分布のモーメント【統計学】
連続分布のモーメントの定義や性質を述べる。また様々な連続分布のモーメントを導出し、期待値と分散を求める。特性関数、積率母関数を利用した期待値と分散の導出法については、それぞれ連続分布の特性関数、連 ...

: 統計学
【統計学】平均値・中央値・最頻値　ヒストグラム　記述統計
データの位置母数である平均値、中央値、最頻値に解説する。データの分布の形状によって平均値、中央値、最頻値がどのように変化するのか、また平均値、中央値、最頻値のうちどれを代表値として用いればよいのか、 ...

: 統計学
【統計学】コーシー分布の確率密度関数
コーシー分布の確率密度関数を紹介し、標準正規分布の確率密度関数から導出する。コーシー分布は自由度1のt分布でもある。t分布の確率密度関数の導出方法については、t分布の確率密度関数を参照されたい。コ ...

【R言語】カイ二乗検定　適合度検定・独立性の検定

平均ベクトルと共分散行列の最尤推定量

【統計学】Z検定・大標本における母平均の検定

【統計学】t検定 母平均の検定・母平均の差の検定

Z検定

様々なZ検定

1標本検定

検定

尤度比検定からの検定統計量の導出（母集団分布が正規分布）

2標本検定

分散\(\sigma_1^2\)と\(\sigma_2^2\)が等しい

分散\(\sigma_1^2\)と\(\sigma_2^2\)が異なる

対応のある2標本検定

【統計学】t検定　母平均の検定・母平均の差の検定