【統計学】t検定　母平均の検定・母平均の差の検定

ここでは、統計学の仮説検定において重要なStudentのt検定について解説する。

母分布である正規分布のパラメータによって様々なt検定の手法が提案されている。

その中でもよく使われるt検定についてみていく。

大標本のZ検定および分散が既知のときの母平均の差の検定については以下の記事を参照されたい。

: 【統計学】Z検定・大標本における母平均の検定
大標本における仮説検定方法のうち最も用いられるZ検定について解説する。 Studentのt検定と同様に、仮説によって検定統計量が異なるため、様々な検定が存在する。その中でも重要な検定（1標本検定や2 ...
続きを見る

R言語でのt検定の実行方法は次の記事を参照。

: 【R言語】関数t.testを用いた母平均の検定　1標本t検定
今回はR言語で、母平均についての検定であるt検定を行う方法を解説していきます。 t検定を実行する関数やその実行例を紹介します。実行例では、実際にデータセットを用いて母平均の検定を行うだけでなく、検定 ...
続きを見る

: 【R言語】関数t.testを用いた2標本t検定・母平均の差の検定
母平均の差についての検定を行う方法を解説していきます。 R言語を用いることで、母平均の差の検定である2標本t検定が簡単に実行できます。 1標本の時と同様に、検定結果などは自分で計算する必要がなく非常に ...
続きを見る

t検定

t検定とは、帰無仮説の下での検定統計量がStudentのt分布に従う検定である。

標本が正規分布に従い分布の分散（尺度母数）が未知である場合で、平均（位置母数）についての仮説検定を行いたいときにt検定が用いられる。

例として、「ある母集団の平均\(\mu\)がある特定の値\(\mu_0\)であるか」の仮説を検定したり、「２つの母集団の平均\(\mu_1\), \(\mu_2\)は等しいか」の仮説を検定したりするときに活用される。

上記の例のように、母集団のパラメータや母集団の数によって様々な検定方法がある。

様々なt検定

1標本t検定

検定

1標本t検定

\(x_1, \ldots, x_n\)をそれぞれ\(N(\mu, \sigma^2)\)からの独立同一な標本であるとし、\(X_1, \ldots, X_n\)をその確率変数とする。このとき、次の「ある母集団の平均\(\mu\)がある特定の値\(\mu_0\)であるか」の仮説検定をしたい場合、1標本検定を適用する。

\begin{align}&H_0: \mu = \mu_0\\&H_1: \mu \neq \mu_0\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq1}t = \cfrac{\bar{X} - \mu_0}{S / \sqrt{n}}\sim t_{n-1}.\tag{1}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えらえる。

\begin{align}(-\infty, -t_{\alpha/2, n-1}) \cup ( t_{\alpha/2, n-1}, \infty),\end{align}

ここに、\(\bar{X}\)と\(S^2\)は次で定義され、\(t_{\alpha/2, n-1}\)は自由度\(n-1\)のt分布の上側\(\alpha/2\)の確率点である。

\begin{align}\bar{X} &= \cfrac{1}{n}\sum_{i=1}^nX_i,\\ S^2 &= \cfrac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2.\end{align}

\eqref{eq1}を次のように変形する。

\begin{align}t &= \cfrac{(\bar{X} - \mu_0)/(\sigma/\sqrt{n})}{\sqrt{n}S / \sqrt{n}\sigma}\\ &\overset{d}{=}\cfrac{Z}{\sqrt{\chi_{n-1}^2/(n-1)}},\end{align}

ここに、\(Z\)は標準正規分布に従う確率変数である。上式の分子は\(N(0,1)\)であり、分母は\(\chi_{n-1}^2\)に従う確率変数をその自由度で割ったものの平方根であるため、検定統計量は自由度\(n-1\)のt分布に従う。t分布の詳細については、t分布を参照されたい。

尤度比検定からの検定統計量の導出

次に、尤度比検定により\eqref{eq1}の検定統計量を導出する。\(x_1, \ldots, x_n\)はそれぞれ\(N(\mu, \sigma^2)\)からの独立同一な標本であると仮定する。このとき、母集団分布は次の確率密度関数を持つ。

\begin{align}f(x) = \cfrac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2}.\end{align}次の尤度比\(\lambda\)を考える。\begin{align}\lambda = \cfrac{\max_{\sigma^2}L(\mu_0, \sigma^2)}{\max_{\mu, \sigma^2}L(\mu, \sigma^2)},\end{align}

ここに、

\begin{align}L(\mu, \sigma^2) = \prod_{i=1}^n \cfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x_i-\mu)^2} .\end{align}

最尤推定量より、帰無仮説\(H_0\)の下での\(\sigma^2\)の最尤推定量は

\begin{align}\hat{\sigma}^2 &= \cfrac{1}{n}\sum_{i=1}^n(x_i - \mu_0)^2\end{align}であり、対立仮説\(H_1\)の下での\(\mu\)と\(\sigma^2\)の最尤推定量は次で与えられる。\begin{align}\hat{\mu} &= \bar{x},\\ \hat{\sigma}^2 &= \cfrac{1}{n}\sum_{i=1}^n(x_i -\bar{x})^2.\end{align}

よって、\(\lambda\)は次となる。

\begin{align}\lambda &= \cfrac{L(\mu_0, \hat{\sigma}^2)}{L(\hat{\mu} ,\hat{\sigma}^2)} \\&= \cfrac{\cfrac{1}{(2\pi)^{\frac{n}{2}}} \left[\cfrac{1}{n}\sum_{i=1}^n (x_i - \mu_0)^2\right]^{-\frac{n}{2}}e^{-\frac{n}{2}\left[\sum_{i=1}^n(x_i - \mu_0)^2\right]^{-1}\sum_{i=1}^n(x_i-\mu_0)^2}}{\cfrac{1}{(2\pi)^{\frac{n}{2}}} \left[\cfrac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2\right]^{-\frac{n}{2}}e^{-\frac{n}{2}\left[\sum_{i=1}^n(x_i - \bar{x})^2\right]^{-1}\sum_{i=1}^n(x_i-\bar{x})^2}}\\ &= \left[\cfrac{\sum_{i=1}^n (x_i - \bar{x})^2}{\sum_{i=1}^n (x_i - \mu_0)^2}\right]^{\frac{n}{2}}\end{align}

したがって、棄却域として次を用いればよい。

\begin{align}\lambda < \lambda(\varepsilon),\end{align}

ここに、\(\lambda(\varepsilon)\)は上式が確率\(\varepsilon\)で成り立つ定数である。棄却域に関して次が言える。

\begin{align}& \left[\cfrac{\sum_{i=1}^n (x_i - \bar{x})^2}{\sum_{i=1}^n (x_i - \mu_0)^2}\right]^{\frac{n}{2}} < \lambda(\varepsilon)\\ &\Leftrightarrow \cfrac{\sum_{i=1}^n (x_i - \mu_0)^2}{\sum_{i=1}^n (x_i - \bar{x})^2} > \left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n}} \\&\Leftrightarrow \left|\sqrt{\cfrac{n (\bar{x} - \mu_0)^2/\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2/\sigma^2}}\right| > \left\{\lambda(\varepsilon)\right\}^{-n} \\ &\Leftrightarrow \left|\cfrac{Z}{\sqrt{\chi_{n-1}^2 / n-1}}\right| > \left\{\lambda(\varepsilon)\right\}^{-n}\\ &\Leftrightarrow |t| > \left\{\lambda(\varepsilon)\right\}^{-n}, \end{align}

ここに、\(Z\)は標準正規分布に従う確率変数である。故に、上で与えた\(\lambda\)に関する棄却域の代わりに次を用いればよい。

\begin{align} |t| > t(\varepsilon),\end{align}

ここに、\(t(\varepsilon)\)は、\(\lambda\)に関する不等式が確率\(\varepsilon\)で成り立つような定数である。\(t\)はt分布に従うため、\(t(\varepsilon)\)を計算することが可能である。

2標本t検定

標本数\(n_1,\ n_2\)と分散\(\sigma_1^2,\ \sigma_2^2\)が同じ

2標本t検定（標本数と分散が同じ）

\(x_{11}, \ldots, x_{1n}\)をそれぞれ\(N(\mu_1, \sigma^2)\)から、\(x_{21}, \ldots, x_{2n}\)はそれぞれ\(N(\mu_2, \sigma^2)\)からの独立同一な標本であるとし、\(X_{11}, \ldots, X_{1n}\)と\(X_{21}, \ldots, X_{2n}\)をその確率変数とする。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説検定をしたい場合、2標本検定を適用する。

\begin{align}&H_0: \mu_1 = \mu_2\\&H_1: \mu_1 \neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq2}t = \cfrac{\bar{X}_1- \bar{X}_2}{S \sqrt{2/n}}, \sim t_{2(n-1)}.\tag{2}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えらえる。

\begin{align}(-\infty, -t_{\alpha/2, 2(n-1)}) \cup ( t_{\alpha/2, 2(n-1)}, \infty),\end{align}

ここに、\(\bar{X}_1\)、\(\bar{X}_2\)、\(S^2\)は次で定義される。

\begin{align}\bar{X}_i &= \cfrac{1}{n}\sum_{j=1}^nX_{ij},\ \ i= 1,2,\\S^2 &= \sqrt{\cfrac{S_1^2 + S_2^2}{2}},\\s_i^2 &=\cfrac{1}{n-1}\sum_{i=1} (X_{ij} - \bar{X})^2,\ \ i= 1,2. \end{align}

\eqref{eq2}は次のように表現できる。

\begin{align}t &= \cfrac{(\bar{X}_1 - \bar{X}_2) / \sqrt{2\sigma^2/n}}{\left.\sqrt{(S_1^2 + S_2^2)/ n} \right/ \sqrt{2\sigma^2/n}}\\ &\overset{d}{=} \cfrac{Z}{\sqrt{(\chi_{n-1}^2 + \chi_{n-1}^2) / 2(n-1)}} \\ &= \cfrac{Z}{\sqrt{\chi_{2(n-1)}^2 / 2(n-1)}},\end{align}

ここに、\(Z\)は標準正規分布に従う確率変数である。2つ目の等式は分布の再生性によっていえる。上式の分子は\(N(0, 1)\)に従い、分母は\(\chi_{2(n-1)}^2\)に従う確率変数をその自由度で割った平方根であるため、自由度\(2(n-1)\)のt分布に従う。

標本数\(n_1,\ n_2\)が異なり、分散\(\sigma_1^2,\ \sigma_2^2\)が同じ

検定

2標本t検定（標本数が異なり分散が同じ）

\(x_{11}, \ldots, x_{1n_1}\)をそれぞれ\(N(\mu_1, \sigma^2)\)から、\(x_{21}, \ldots, x_{2n_2}\)をそれぞれ\(N(\mu_2, \sigma^2)\)からの独立同一な標本とし、\(X_{11}, \ldots, X_{1n_1}\)と\(X_{21}, \ldots, X_{2n_2}\)るとする。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説検定を考える。

\begin{align}&H_0: \mu_1 = \mu_2\\&H_1: \mu_1 \neq \mu_2\end{align}

標本数\(n_1,\ n_2\)が異なる場合、検定統計量として次を用いる。

\begin{align}\label{eq3}t = \cfrac{\bar{X}_1- \bar{X}_2}{S \sqrt{1/n_1 + 1/n_2}}, \sim t_{2(n1-n_2 - 2)}. \tag{3}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えらえる。

\begin{align}(-\infty, -t_{\alpha/2, 2(n1-n_2 - 2)}) \cup ( t_{\alpha/2, 2(n1-n_2 - 2)}, \infty),\end{align}

ここに、\(S^2\)は次で定義される\(S_1^2\)と\(S_2^2\)をプールしたものである。

\begin{align}S^2 &= \cfrac{1}{n_1 + n_2-2}\left[(n_1-1)S_1^2 + (n_2-1)S_2^2\right].\end{align}

\eqref{eq3}は次のように表現できる。

\begin{align}t &= \cfrac{(\bar{X}_1- \bar{X}_2)/ \sqrt{\sigma^2(1/n_1 + 1/n_2)}}{\left. \sqrt{\frac{1}{n_1 + n_2-2}\left[(n_1-1)S_1^2 + (n_2-1)S_2^2\right]} \sqrt{1/n_1 + 1/n_2} \right/ \sqrt{\sigma^2(1/n_1 + 1/n_2)}} \\&\overset{d}{=} \cfrac{Z}{\sqrt{\chi_{n_1-1}^2 + \chi_{n_2-1}^2 / (n_1 + n_2 -2)}}\\ &= \cfrac{Z}{\sqrt{\chi_{n_1 + n_2 - 2}^2 / (n_1 + n_2 -2)}},\end{align}

ここに、\(Z\)は標準正規分布に従う確率変数である。上式の分子は\(N(0, 1)\)に従い、分母は自由度\(\chi_{n_1 + n_2-2}^2\)に従う確率変数をその自由度で割ったものの平方根であるため、自由度\(n_1 +n_2-2\)のt分布に従う。

尤度比検定からの検定統計量の導出

次に、\eqref{eq3}が尤度比検定統計量であることを確認する。\(x_{11}, \ldots, x_{1n}\)はそれぞれ\(N(\mu_1, \sigma^2)\)からの独立同一な標本であり、\(x_{21}, \ldots, x_{2n}\)はそれぞれ\(N(\mu_2, \sigma^2)\)である。このとき、尤度関数は次で与えられる。

\begin{align}L(\mu_1, \mu_2, \sigma^2) &= \prod_{i=1}^2\prod_{j=1}^{n_i}\cfrac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2}(x_{ij} - \mu_i)^2 }.\end{align}

次の尤度比\(\lambda\)を考える。

\begin{align}\lambda = \cfrac{\max_{\mu,\sigma^2}L(\mu, \mu, \sigma^2)}{\max_{\mu_1, \mu_2, \sigma^2}L(\mu_1, \mu_2, \sigma^2)}, \end{align}

ここに、\(\mu = \mu_1 = \mu_2\)である。最尤推定量より、帰無仮説の下での\(\mu\)、\(\sigma^2\)の最尤推定量は

\begin{align}\hat{\mu} &= \cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}x_{ij},\\ \hat{\sigma}^2 &= \cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\end{align}

であり、対立仮説の下での\(\mu_1\)、\(\mu_2\)、\(\sigma^2\)の最尤推定量はそれぞれ次で与えられる。

\begin{align}\hat{\mu}_i &= \bar{x}_i,\ \ i = 1, 2,\\ \hat{\sigma}^2 &= \cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2.\end{align}

帰無仮説の下での最大尤度は

\begin{align}L(\hat{\mu}, \hat{\sigma}^2) &= \prod_{i=1}^2\cfrac{1}{(2\pi)^{\frac{n_i}{2}}}\prod_{i=1}^2\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{-\frac{n_i}{2}} e^{-\frac{1}{2}\left[\frac{1}{n_1+n_2}\sum_{i=1}^{2}\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{-1}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2 } \\ &= \cfrac{1}{(2\pi)^{\frac{1}{2}(n_1 +n_2)}}\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{-\frac{1}{2}n_1+n_2)} e^{-\frac{1}{2}(n_1 +n_2)}\end{align}

であり、対立仮説の下での最大尤度は

\begin{align}L(\hat{\mu}_1,\ \hat{\mu}_2, \hat{\sigma}^2) &= \cfrac{1}{(2\pi)^{\frac{n_i}{2}}}\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2\right]^{-\frac{1}{2}(n_1 +n_2)} e^{-\frac{1}{2}(n_1+n_2)\left[\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2\right]^{-1}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2 }\\ &= \cfrac{1}{(2\pi)^{\frac{1}{2}(n_1 +n_2)}}\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2\right]^{-\frac{1}{2}(n_1 +n_2)} e^{-\frac{1}{2}(n_1+n_2)}\end{align}

である。したがって、\(\lambda\)は次で表される。

\begin{align}\lambda &=\cfrac{\cfrac{1}{(2\pi)^{\frac{1}{2}(n_1 +n_2)}}\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{-\frac{1}{2}n_1+n_2)} e^{-\frac{1}{2}(n_1 +n_2)}}{\cfrac{1}{(2\pi)^{\frac{1}{2}(n_1 +n_2)}}\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2\right]^{-\frac{1}{2}(n_1 +n_2)} e^{-\frac{1}{2}(n_1+n_2)}} \\&= \cfrac{\left[\frac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{-\frac{1}{2}(n_1+n_2)}}{\left[\frac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2\right]^{-\frac{1}{2}(n_1 +n_2)} }\\&= \left[ \cfrac{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}\right]^{\frac{1}{2}(n_1+n_2)} .\end{align}

したがって、棄却域として次を用いればよい。

\begin{align}\lambda < \lambda(\varepsilon).\end{align}

この棄却域に関して次が成り立つ。

\begin{align} &\left[ \cfrac{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}\right]^{\frac{1}{2}(n_1+n_2)} < \lambda(\varepsilon)\\ &\Leftrightarrow \cfrac{\sum_{i=1}^2\sum_{j=1}^{n_i}\left[(x_{ij} - \bar{x}_i)+(\bar{x}_i - \bar{x})\right]^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2} > \left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} \\ &\Leftrightarrow \cfrac{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2 + \sum_{i=1}^2n_i(\bar{x}_i - \bar{x}_i)(\bar{x}_i - \bar{x}) + \sum_{i=1}^2n_i(\bar{x}_i - \bar{x})^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2} > \left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} \\ &\Leftrightarrow \cfrac{\sum_{i=1}^2n_i(\bar{x}_i - \bar{x})^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2} > \left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} - 1 \\ &\Leftrightarrow \cfrac{n_1\left[n_2(\bar{x}_1 - \bar{x}_2)/(n_1+n_2)\right]^2 + n_2\left[n_1(\bar{x}_2 - \bar{x}_1)/(n_1+n_2)\right]^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2} > \left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} - 1\\ &\Leftrightarrow \cfrac{(1/n_1+1/n_2)(\bar{x}_1 - \bar{x}_2)^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2/(n_1 +n_2 - 2)} > (n_1 +n_2 - 2)\left[\left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} - 1\right]\\ &\Leftrightarrow \left|\sqrt{\cfrac{(1/n_1+1/n_2)(\bar{x}_1 - \bar{x}_2)^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2/(n_1 +n_2 - 2)}}\right| > (n_1 +n_2 - 2)^{\frac{1}{2}}\left[\left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} - 1\right]^{\frac{1}{2}} \\&\Leftrightarrow \left|\cfrac{\bar{x}_1- \bar{x}_2}{\sqrt{\left[(n_1 - 1)s_1^2 + (n_2-1)s_2^2\right]/(n_1 +n_2 - 2)}\sqrt{1/n_1 +1/n_2}}\right| > (n_1+n_2-2)^{\frac{1}{2}}\left[\left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} - 1\right]^{\frac{1}{2}}\\&\Leftrightarrow |t| > (n_1 +n_2 - 2)^{\frac{1}{2}}\left[\left\{\lambda(\varepsilon)\right\}^{-\frac{2}{n_1+n_2}} - 1\right]^{\frac{1}{2}} \end{align}

よって、\(\lambda\)に関する棄却域の代わりに次を用いればよい。

\begin{align}|t| > t(\varepsilon).\end{align}

\(t\)は自由度\(n_1 +n_2-2\)のt分布に従うため、\(t(\varepsilon)\)を計算できる。

分散\(\sigma_1^2,\ \sigma_2^2\)が異なる

2標本t検定（標本数と分散が異なる）

2つの母集団の分散が等しくない場合のt検定についてみていく。この検定はWelchのt検定と呼ばれる。\(x_{11}, \ldots, x_{1n_1}\)をそれぞれ\(N(\mu_1, \sigma_1^2)\)から、\(x_{21}, \ldots, x_{2n_2}\)はそれぞれ\(N(\mu_2, \sigma_2^2)\)からの独立同一な標本とし、\(X_{11}, \ldots, X_{1n_1}\)と\(X_{21}, \ldots, X_{2n_2}\)をるとする。このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説検定を考える。

\begin{align}&H_0: \mu_1 = \mu_2\\&H_1: \mu_1 \neq \mu_2\end{align}

分散\(\sigma_1^2,\ \sigma_2^2\)が異なる場合、検定統計量として次を用いる。

\begin{align}\label{eq4}\cfrac{\bar{X}_1- \bar{X}_2}{S} \sim t_{\nu}.\tag{4}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えらえる。

\begin{align}(-\infty, -t_{\alpha/2, \nu}) \cup ( t_{\alpha/2, \nu}, \infty),\end{align}

ここに

\begin{align}s &= \sqrt{\cfrac{S_1^2}{n_1} + \cfrac{S_2^2}{n_2}}\\\nu &=\cfrac{(\frac{S_1^2}{n_1^2} + \frac{S_2^2}{n_2})^2}{\cfrac{(S_1^2/n_1)^2}{n_1-1} + \cfrac{(S_2^2/n_2)^2}{n_2-1}}. \end{align}

自由度\(\nu\)はWelch-Satterthwaite equationと呼ばれる。\eqref{eq4}が近似的に自由度\(\nu\)に従う証明はここではしない。また、\eqref{eq4}の精確な分布を得ることは非常に困難であり、これはBehrens-fisher問題と呼ばれる。

対応のある2標本検定

最後に、対応のある2標本検定についてみていく。2組から成る標本が得られたとき、その標本の母集団の平均が等しいかを検定する。\((x_1, y_1), \ldots, (x_n, y_n)\)はそれぞれ2変量正規分布\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)からの無作為標本とし、\((X_1, Y_1), \ldots, (X_n, Y_n)\)を対応する確率変数の組とする。ここに

\begin{align} \boldsymbol{\mu} &= \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \\ \boldsymbol{\Sigma} &= \begin{pmatrix} \sigma_1^2 & \sigma_{12}\\ \sigma_{21} & \sigma_2^2\end{pmatrix}.\end{align}

このとき、次の「2つの母集団の平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説検定を考える。

\begin{align}&H_0: \delta = \mu_1 -\mu_2 = 0\\&H_1: \delta\neq 0\end{align}

標本に対応がある場合、検定統計量として次を用いる。

\begin{align}\label{eq5}t = \cfrac{\bar{X}_D}{s_D/\sqrt{n}} \sim t_{n- 1}.\tag{5}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えらえる。

\begin{align}(-\infty, -t_{\alpha/2, n-1})\cup ( t_{\alpha/2, n-1}, \infty),\end{align}

ここに、\(\bar{X}_D\)と\(S_D^2\)は次で定義される。

\begin{align}X_{Di} &= X_{1i}- X_{2i},\\ \bar{X}_D &= \cfrac{1}{n}\sum_{i=1}^n X_{Di}, \\ S_D^2 &= \cfrac{1}{n-1} \sum_{i=1}^n (X_{Di}- \bar{X}_D)^2.\end{align}

\eqref{eq5}は次のように変形される。

\begin{align}t &= \cfrac{\bar{X}_D / \sqrt{(\sigma_1^2 + \sigma_2^2 - 2\sigma_{12}) / n}}{\left.(S_D/\sqrt{n}) \right/ \sqrt{(\sigma_1^2 + \sigma_2^2 - 2\sigma_{12}) / n}} \\&\overset{d}{=} \cfrac{Z}{\sqrt{\chi_{n-1}^2 / (n-1)}} ,\end{align}

ここに、\(Z\)は標準正規分布に従う確率変数である。上式の分子は\(N(0, 1)\)に従う確率変数であり、分母は\(\chi_{n-1}^2\)に従う確率変数をその自由度で割ったものの平方根であるため、自由度\(n-1\)のt分布に従う。