統計学

【統計学】Z検定・大標本における母平均の検定

  1. HOME >
  2. 統計学 >

【統計学】Z検定・大標本における母平均の検定

スポンサーリンク

大標本における仮説検定方法のうち最も用いられるZ検定について解説する。

Studentのt検定と同様に、仮説によって検定統計量が異なるため、様々な検定が存在する。

その中でも重要な検定(1標本検定や2標本検定)を紹介する。また、近似的に検定統計量が正規分布に従うことも示す。

t検定については以下を参照されたい。

【統計学】t検定 母平均の検定・母平均の差の検定

ここでは、統計学の仮説検定において重要なStudentのt検定について解説する。 母分布である正規分布のパラメータによって様々なt検定の手法が提案されている。 その中でもよく使われるt検定についてみて ...

続きを見る

Z検定

Z検定とは、母分布の平均についての仮説検定であり、帰無仮説の下で検定統計量が標準正規分布に近似できる検定のことである。

大標本の場合、中心極限定理によりほとんどの統計量を正規分布に近似できることを利用するのがZ検定の特徴である。これは、標本数が大きいときには、Z検定を適用できることを意味する。

さらに、母分布の分散が既知、未知にかかわらず、Z検定を適用することが可能である。分散が未知である場合には、分散をその推定量(不偏推定量)で置き換えることで正規近似することができる。これは、推定量が分散に確率収束するためである。

前述した通り、仮説によって様々な検定方法が提案されている。以降、その中でも重要な検定方法についてみていく。

様々なZ検定

1標本検定

検定

Z検定・1標本検定

\(x_1, \ldots, x_n\)を平均\(\mu\)、分散\(\sigma^2\)をもつある分布からの無作為標本とし、\(X1, \ldots, X_n\)を対応する確率変数とする。また、標本数\(n\)は十分に大きいと仮定する。このとき、次の「平均\(\mu\)は特定の値\(\mu_0\)であるか」の仮説を検定する。

\begin{align}&H_0: \mu = \mu_0 \\&H_1: \mu\neq \mu_0\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq1} Z= \cfrac{\bar{X}- \mu_0}{\sigma /\sqrt{n}}\sim N(0, 1). \tag{1}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2}) \cup (Z_{\alpha/2}, \infty),\end{align}

ここに、\(\bar{X}\)は次で与えられる標本平均の確率変数であり、\(Z_{\alpha/2}\)は標準正規分布の上側\(\alpha/2\)の確率点である。

\begin{align}\bar{X} = \cfrac{1}{n}\sum_{i=1}^n X_i.\end{align}

\eqref{eq1}について、帰無仮説の下で、中心極限定理より\(Z= \sqrt{n}(\bar{X} - \mu_0 )/\sigma \sim N(0, 1)\)である。

また、母分布が正規分布でなくても中心極限定理により、1標本検定が可能である。帰無仮説の下で\begin{align}\mathrm{E}[\bar{X}] &= \mu_0,\\ \mathrm{Var}[\bar{X}] &= \sigma^2/n\end{align}であることから、中心極限定理により\begin{align} \sqrt{n}(\bar{X}-\mu_0) / \sigma \sim N(0, 1)\end{align}である。したがって、\(n\)が十分に大きいとき、\eqref{eq1}は標準正規分布に従う。

分散\(\sigma^2\)が未知である場合についてもZ検定を適用することができる。\(\sigma^2\)が未知であるとき次の検定統計量を用いる。

\begin{align}\label{eq2}Z = \cfrac{\bar{X}  - \mu_0}{S / \sqrt{n}} , \tag{2}\end{align}

ここに、\(S^2\)は次で定義される不偏標本分散の確率変数である。

\begin{align}S^2 &= \cfrac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X})^2.\end{align}

\eqref{eq2}の分母の不偏標本分散について次がいえる。\begin{align}\lim_{n\to \infty} S^2 = \sigma^2\end{align}したがって、\(n\)が十分に大きいとき、\(\sqrt{n}(\bar{X}-\mu_0) \sim N(0, \sigma^2)\)であるため、検定統計量\(Z\)は標準正規分布に従う。

尤度比検定からの検定統計量の導出(母集団分布が正規分布)

次に、尤度比検定により\eqref{eq1}の検定統計量を導出する。\(x_1, \ldots, x_n\)はそれぞれ\(N(\mu, \sigma^2)\)からの独立同一な標本であると仮定する。このとき、母集団分布は次の確率密度関数を持つ。

\begin{align}f(x) = \cfrac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2}.\end{align}

次の尤度比\(\lambda\)を考える。

\begin{align}\lambda = \cfrac{\max_{\mu_0}L(\mu_0)}{\max_{\mu}L(\mu)},\end{align}

ここに、

\begin{align}L(\mu) = \prod_{i=1}^n \cfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x_i-\mu)^2} .\end{align}

最尤推定量より、対立仮説\(H_1\)の下での\(\mu\)の最尤推定量は次で与えられる。

\begin{align}\hat{\mu} &= \bar{x}.\end{align}よって、\(\lambda\)は次となる。\begin{align}\lambda &= \cfrac{L(\mu_0)}{L(\hat{\mu})} \\&=  \cfrac{\cfrac{1}{(2\pi \sigma^2)^{\frac{n}{2}}} e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu_0)^2}}{\cfrac{1}{(2\pi\sigma^2)^{\frac{n}{2}}} e^{-\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i-\bar{x})^2}}\\ &= e^{-\frac{1}{2\sigma^2} \left[(x-\mu_0)^2 -(x-\bar{x})^2\right]}\\ &= e^{-\frac{n}{2\sigma^2}(\bar{x} - \mu_0)^2}.\end{align}

したがって、棄却域として次を用いればよい。

\begin{align}\lambda < \lambda(\varepsilon),\end{align}

ここに、\(\lambda(\varepsilon)\)は上式が確率\(\varepsilon\)で成り立つ定数である。棄却域に関して次が言える。

\begin{align}& e^{-\frac{n}{2\sigma^2}(\bar{x} - \mu_0)^2} < \lambda(\varepsilon) \\&\Leftrightarrow \frac{n}{\sigma^2}(\bar{x} - \mu_0)^2 > - 2\log \lambda(\varepsilon)\\&\Leftrightarrow \left|\sqrt{\frac{n}{\sigma^2}(\bar{x} - \mu_0)^2}\right| > \left\{-2\log \lambda(\varepsilon)\right\}^{\frac{1}{2}}\\ &\Leftrightarrow |Z| > \left\{-2\log \lambda(\varepsilon)\right\}^{\frac{1}{2}}\end{align}

故に、\(\lambda\)に関する棄却域の代わりに次を用いればよい。

\begin{align} |Z| < Z(\varepsilon),\end{align}

ここに、\(Z(\varepsilon)  = \{-2\log \lambda(\varepsilon)\}^{\frac{1}{2}}\)であり、\(\lambda\)に関する不等式が確率\(\varepsilon\)で成り立つような定数である。\(Z\)は標準正規分布に従うため、\(Z(\varepsilon)\)を計算することが可能である。

2標本検定

分散\(\sigma_1^2\)と\(\sigma_2^2\)が等しい

Z検定・2標本検定(分散が等しい)

\(x_{11}, \ldots, x_{1n_1}\)を平均\(\mu_1\)、分散\(\sigma^2\)の分布、\(N(\mu_1, \sigma^2)\)を平均\(\mu_2\)、分散\(\sigma^2\)のある分布からの無作為標本とし、\(X_{11} , \ldots, X_{1n_1}\)と\(X_{21} , \ldots, X_{2n_2}\)を対応する確率変数とする。また、標本数\(n_1\)と\(n_2\)は十分に大きいと仮定する。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: \mu_1 = \mu_2 \\&H_1: \mu_1\neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq3} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{1/ n_1+ 1/ n_2}\sigma} \sim N(0, 1).\tag{3}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2} ) \cup ( Z_{\alpha/2}, \infty),\end{align}

ここに、\(\bar{X}_1\)と\(\bar{X}_2\)は次で与えられる。

\begin{align}\bar{X}_i =\cfrac{1}{n_i}\sum_{j=1}^{n_i}X_{ij},\ \ i = 1, 2.\end{align}

\eqref{eq3}について、帰無仮説の下で、中心極限定理より

\(Z= (\bar{X}_1 - \bar{X}_2)/(\sqrt{1/ n_1+ 1/ n_2} \sigma) \sim N(0, 1)\)

である。

分散\(\sigma^2\)が未知である場合は、検定統計量として次を用いる。

\begin{align}\label{eq4} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{1/ n_1+ 1/n_2}S} ,\tag{4}\end{align}

ここに、\(S^2\)は次で定義される不偏分散をプールしたものである。

\begin{align} S^2 &= \cfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2},\\S_i^2 &= \cfrac{1}{n_i-1}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2, \ \ i= 1,2.\end{align}

\(n_1\)と\(n_2\)が十分に大きいとき、次が成り立つ。

\begin{align}\lim_{n_1, n_2\to \infty} S^2 &= \lim_{n_1, n_2\to\infty} \cfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}\\&=\lim_{n_1, n_2\to\infty} \cfrac{1}{n_1+n_2-2}\sum_{i=1}^2\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2 \\&= \sigma^2.\end{align}

また、\eqref{eq4}について\(\bar{X}_1 - \bar{X}_2 \sim N[0, (1/n_1 +1/n_2)\sigma^2]\)であるため、\(n_1\)と\(n_2\)が十分に大きいとき、

\(Z= (\bar{X}_1 - \bar{X}_2)/(\sqrt{1/ n_1+ 1/ n_2}S)\sim N(0, 1)\)

である。

分散\(\sigma_1^2\)と\(\sigma_2^2\)が異なる

Z検定・2標本検定(分散が異なる)

\(x_{11}, \ldots, x_{1n_1}\)を平均\(\mu_1\)、分散\(\sigma_1^2\)の分布、\(x_{21}, \ldots, x_{2n_2}\)を平均\(\mu_2\)、分散\(\sigma_2^2\)の分布からの無作為標本とし、\(X_{11}, \ldots, X_{1n_1}\)と\(X_{21}, \ldots, X_{2n_2}\)を対応する確率変数とする。また、標本数\(n_1\)と\(n_2\)は十分に大きいと仮定する。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: \mu_1 = \mu_2 \\&H_1: \mu_1\neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq5} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{\sigma_1^2/ n_1+ \sigma_2^2/ n_2}} \sim N(0, 1),\tag{5}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2} ) \cup ( Z_{\alpha/2}, \infty).\end{align}

\eqref{eq5}について、帰無仮説の下で、中心極限定理より

\(Z= (\bar{X}_1 - \bar{X}_2)/\sqrt{\sigma_1^2/ n_1+ \sigma_2^2/ n_2} \sim N(0, 1)\)

である。

分散\(\sigma_1^2\)、\(\sigma_2^2\)が未知である場合は、検定統計量として次を用いる。

\begin{align}\label{eq6} Z = \cfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_1^2/ n_1+ S_2^2/ n_2}} \sim N(0, 1) ,\tag{6}\end{align}

ここに、\(S_1^2\)と\(S_2^2\)は次で与えられる不偏標本分散の確率変数である。

\begin{align}S_i^2 &= \cfrac{1}{n_i-1}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2.\end{align}

対応のある2標本検定

最後に、大標本での対応のある2標本検定についてみていく。

Z検定・対応のある2標本検定

\((x_{11}, x_{21}), \ldots, (x_{1n}, x_{2n})\)を平均ベクトル\(\boldsymbol{\mu}\)、共分散行列\(\boldsymbol{\Sigma}\)からの無作為標本とし、\((X_{11}, X_{21}), \ldots, (X_{1n}, X_{2n})\)を対応する確率ベクトルとする。また、標本数\(n\)は十分に大きいと仮定する。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)に差はないか」の仮説を検定する。検定統計量として次を用いる。

\begin{align}\label{eq7}Z = \cfrac{\bar{X}_D }{\sigma_D/\sqrt{n}} \sim N(0, 1).\tag{7}\end{align}

また、有意水準\(\alpha\)の検定の棄却域は次で与えられる。

\begin{align}(-\infty,- Z_{\alpha/2}) \cup ( Z_{\alpha/2}, \infty),\end{align}

ここに、\(\bar{X}_D\)と\(\sigma_D^2\)は次で定義される。

\begin{align}X_{Di} &= X_{1i}-X_{2i},\\\bar{X}_D &= \cfrac{1}{n}\sum_{i=1}^nX_{Di},\\ \sigma_D^2 &= \mathrm{Var}[X_{Di}].\end{align}

\eqref{eq7}について、帰無仮説の下で、中心極限定理より\(Z= \sqrt{n}\bar{X_D}/\sigma_D \sim N(0, 1)\)である。

分散\(\sigma_1^2\)、\(\sigma_2^2\)が未知である場合は、検定統計量として次を用いる。

\begin{align}Z= \cfrac{\bar{X}_D}{S_D/ \sqrt{n}} ,\end{align}

ここに、\(S_D^2\)は次で定義される。

\begin{align}S_D^2 &= \cfrac{1}{n-1}\sum_{i=1}^n(X_{Di} - \bar{X}_D)^2. \end{align}

\(n\)が十分に大きいとき、次が成り立つ。

\begin{align}\lim_{n\to \infty}S_D^2 &= \sigma_D^2.\end{align}

したがって、\(n\)が十分に大きいとき\(Z= \sqrt{n}\bar`{X}_D / S_D \sim N(0, 1)\)である。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-