標本が正規分布に従う場合の母平均の差の信頼区間の導出についてみていきます。
母分散が既知または未知である場合について二群の母平均の差の信頼区間を解説します。
母平均の信頼区間については以下の記事を参照。
-
【統計学】母平均の信頼区間
標本が正規分布に従う場合の母平均の信頼区間の導出についてみていきます。 母分散が既知または未知である場合についてそれぞれの信頼区間を解説します。 母平均の差の信頼区間については以下を参照。 信頼区間 ...
続きを見る
信頼区間
信頼区間の定義は次で与えられる。
信頼区間
\(x_1, \ldots, x_n\)はパラメータ\(\theta\)をもつ分布からの大きさ\(n\)の標本とする。このとき、パラメータ\(\theta\)をもつ統計量を\(g(\theta)\)とすると、\(\theta\)の\(100(1 - \alpha ) \)%信頼区間は
\begin{align}\label{eq1} \mathrm{Pr}\{ l \leq g( \theta) \leq u\} = 1-\alpha \tag{1}\end{align}
を満たす区間\([l, u]\)で与えられる。
例えば\(\alpha = 0.05\)であるとき、\eqref{eq1}はパラメータ\(\theta\)は\(l\)と\(u\)の間に95%で存在することを意味する。また、\((1- \alpha)\)は信頼水準(confidence level, C.I.)と呼ばれる。
母平均の差の信頼区間
正規母集団\(N(\mu_1, \sigma_1^2)\)からの大きさ\(n_1\)、\(N(\mu_2, \sigma_2^2)\)から大きさ\(n_2\)の無作為標本\(x_{11}, \ldots, x_{1n_1}\). \(x_{21}, \ldots, y_{2n_2}\)が得られたときの母平均の差\(\mu_1 - \mu_2\)の\(100(1- \alpha)\)%信頼区間を紹介する。以降、2群の標本平均を
\begin{align}\bar{x}_i &= \cfrac{1}{n_i} \sum_{j = 1}^{n_i} x_{ij},\quad i = 1,2. \end{align}
プールした不偏標本分散を
\begin{align} u^2 &= \cfrac{(n_1 - 1) u_1^2 + (n_2 - 1)u_2^2}{n_1+ n_2 -2}\end{align}
とする。ここに、
\begin{align} u_i^2 &= \cfrac{1}{n_i - 1}\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2 \end{align}
また、標準正規分布の上側\(\alpha\)点を\(Z_{\alpha}\)、自由度\(n\)のt分布の上側\(\alpha\)点を\(t_{n, \alpha}\)とする。
母分散が既知のとき
母平均の差の信頼区間(母分散が同じ)
母分散\(\sigma^2\)が既知であり\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)のとき、母平均\(\mu\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq2} \left[\bar{x}_1 - \bar{x}_2 - \sqrt{\cfrac{(n_1 + n_2)\sigma^2}{ n_1n_2}} Z_{\alpha/2} , \bar{x}_1 - \bar{x}_2+ \sqrt{\cfrac{(n_1 + n_2)\sigma^2}{ n_1n_2}} Z_{\alpha/2} \right]. \tag{2} \end{align}
母平均の差の信頼区間(母分散が異なる)
母分散\(\sigma^2\)が既知であり\(\sigma_1^2 \neq \sigma_2^2 \)のとき、母平均\(\mu\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq3} \left[\bar{x}_1 - \bar{x}_2 - \sqrt{ \cfrac{\sigma_1^2 }{n_1 } + \cfrac{\sigma_2^2 }{n_2}} Z_{\alpha/2} , \bar{x}_1 - \bar{x}_2+ \sqrt{ \cfrac{\sigma_1^2 }{n_1 } + \cfrac{\sigma_2^2 }{n_2}} Z_{\alpha/2} \right]. \tag{3} \end{align}
母平均の差の信頼区間(対応のある場合)
2変量正規母集団\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)からの大きさ\(n\)の無作為標本\((x_{11}, x_{21}), \ldots, (x_{1n}, x_{2n})\)が得られたとする。ここに
\begin{gather} \boldsymbol{\mu} =\begin{pmatrix}\mu_1 \\\mu_2 \end{pmatrix}, \quad \boldsymbol{\Sigma} = \begin{pmatrix} \sigma_1^2 & \sigma_{12}\\ \sigma_{21} & \sigma_2^2 \end{pmatrix}.\end{gather}
共分散行列\(\boldsymbol{\Sigma}\)が既知であり対応のあるとき、母平均の差\(\mu_1 - \mu_2\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq4}\left[ \bar{x}_d - \cfrac{\sigma_d}{\sqrt{n}} Z_{ \alpha/2}, \bar{x}_d + \cfrac{\sigma_d}{\sqrt{n}} Z_{ \alpha/2}\right] , \tag{4}\end{align}
ここに\(n_1 = n_2 = n\)、\(x_{di} = x_{1i} - x_{2i},\ i = 1, \ldots, n\)、
\begin{align}\bar{x}_d &= \cfrac{1}{n}\sum_{i=1}^n x_{di}.\end{align}
また、\(\sigma_d^2\)は\(X_{di} = X_{1i} - X_{2i},\ i = 1,\ldots, n\)の分散\(\sigma_d^2 = \mathrm{Var}[X_{di} ]= \sigma_1^2 + \sigma_2^2 - 2\sigma_{12}^2\)である。
母分散が未知のとき
母平均の差の信頼区間(母分散が同じ)
母分散\(\sigma^2\)が未知であり\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)であるとき、母平均の差\(\mu_1 - \mu_2\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq5} \left[\bar{x}_1 - \bar{x}_2 - \sqrt{\cfrac{(n_1 + n_2) u^2}{n_1n_2}} t_{n_1 + n_2 - 2, \alpha/2}, \bar{x}_1 - \bar{x}_2 + \sqrt{\cfrac{(n_1 + n_2) u^2}{n_1n_2}} t_{n_1 + n_2 - 2, \alpha/2}\right] .\tag{5}\end{align}
母平均の差の信頼区間(母分散が異なる)
母分散\(\sigma^2\)が未知であり\(\sigma_1^2 \neq \sigma_2^2\)であるとき、母平均の差\(\mu_1 - \mu_2\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align}\left[ \bar{x}_1 - \bar{x}_2 - \sqrt{\cfrac{ u_1^2}{n_1} + \cfrac{u_2^2}{n_2}} t_{\nu, \alpha/2}, \bar{x}_1 - \bar{x}_2 +\sqrt{\cfrac{ u_1^2}{n_1} + \cfrac{u_2^2}{n_2}} t_{\nu, \alpha/2}\right], \end{align}
ここに
\begin{align} \nu = \cfrac{\left(\frac{u_1^2}{n_1} + \frac{u_2^2}{n_2}\right)^2}{\frac{u_1^4}{n_1^2(n_1 - 1)} + \frac{u_2^4}{n_2^2(n_2 - 1)}}\end{align}
上の信頼区間はウェルチのt検定統計量から得たものであり、正確なものではないことに注意されたい。
母平均の差の信頼区間(対応のある場合)
2変量正規母集団\(N(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)からの大きさ\(n\)の無作為標本\((x_{11}, x_{21}), \ldots, (x_{1n}, x_{2n})\)が得られたとする。ここに
\begin{gather} \boldsymbol{\mu} =\begin{pmatrix}\mu_1 \\\mu_2 \end{pmatrix}, \quad \boldsymbol{\Sigma} = \begin{pmatrix} \sigma_1^2 & \sigma_{12}\\ \sigma_{21} & \sigma_2^2 \end{pmatrix}.\end{gather}
共分散行列\(\boldsymbol{\Sigma}\)が未知であり対応のあるとき、母平均の差\(\mu_1 - \mu_2\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。
\begin{align} \label{eq6} \left[ \bar{x}_d - \cfrac{u_d}{\sqrt{n}} t_{n- 1, \alpha/2}, \bar{x}_d + \cfrac{u_d}{\sqrt{n}} t_{n - 1, \alpha/2}\right], \tag{6}\end{align}
ここに\(n_1 = n_2 = n\)、\(x_{di} = x_{1i} - x_{2i},\ i = 1, \ldots, n\)、
\begin{align}\bar{x}_d &= \cfrac{1}{n}\sum_{i=1}^n x_{di},\\ u_d^2 &= \cfrac{1}{n - 1}\sum_{i=1}^n (x_{di} - \bar{x}_d)^2.\end{align}
母平均の信頼区間の導出
正規母集団\(N(\mu_1, \sigma^2)\)からの大きさ\(n_1\)、\(N(\mu_2, \sigma^2)\)から大きさ\(n_2\)の無作為標本\(x_{11}, \ldots, x_{1n_1}\). \(x_{21}, \ldots, x_{2n_2}\)が得られたときの母平均の差\(\mu_1 - \mu_2\)の\(100(1- \alpha)\)%信頼区間の導出を行う。母分散\(\sigma^2\)が既知であるか未知であるかに分けてそれぞれの信頼区間を構成する。以降、導出の際に\(x_{i1}, \ldots, x_{in_i},\ i = 1,2\)に対応する確率変数を\(X_{i1}, \ldots, X_{in_i}\)とする。
対応のある場合の信頼区間は\(\bar{X}_d = (1 / n)\sum_{i=1}^nX_{di}\)の分布を考えればよいので一標本のときと同様に導出できる。導出については母平均の信頼区間を参照されたい。
母分散が既知のとき
\(X_{i1}, \ldots, X_{in_i},\ i = 1,2\)は独立に\(N(\mu_i, \sigma_i^2)\)に従うので標本平均の分布より、
\(\bar{X}_1 - \bar{X}_2 \sim N(\mu_1 - \mu_2, (\sigma_1^2 / n_1 + \sigma_2^2/ n_2) \sigma^2)\)
である。よって
\begin{align}Z = \cfrac{\bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{(\sigma_1^2 / n_1 + \sigma_2^2/ n_2)}} \sim N(0, 1).\end{align}
ここで、標準正規分布の上側\(\alpha\)%点を\(Z_{\alpha}\)とすると、確率変数\(Z\)は次を満たす。
\begin{align} &\mathrm{Pr}\{ -Z_{\alpha / 2} \leq Z \leq Z_{\alpha / 2}\} =1- \alpha\\ &\Leftrightarrow \mathrm{Pr}\{ -Z_{\alpha / 2} \leq \cfrac{\bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{ (\sigma_1^2 / n_1 + \sigma_2^2 / n_2)}} \leq Z_{\alpha / 2}\} =1- \alpha.\end{align}
よって\eqref{eq1}より、\(Z\)の信頼区間は次ので表される。
\begin{align}-Z_{\alpha / 2} \leq \cfrac{\bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{(\sigma_1^2 / n_1 + \sigma_2^2/ n_2)}} \leq Z_{\alpha / 2}. \end{align}
故に標本\(x_1, \ldots, x_n\)が与えられたとき、\(\mu_1 - \mu_2\)について式変形を行うと\eqref{eq3}の母平均の差\(\mu_1 - \mu_2\)の信頼区間を得る。
\begin{align} & - Z_{\alpha/2} \leq \cfrac{\bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{(1 / n_1 + 1/ n_2)\sigma^2}} \leq Z_{\alpha/2} \\ &\Leftrightarrow \bar{x}_1 - \bar{x}_2 - \sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}} Z_{\alpha/2} \leq \mu_1 - \mu_2 \leq \bar{x}_1 - \bar{x}_2+ \sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}} Z_{\alpha/2}. \end{align}
また、\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)とすると上式は\eqref{eq2}である。
母分散が未知のとき
不偏標本分散の確率変数を\(U_i^2 = \sum_{j=1}^{n_I}(X_{ij}- \bar{X}_i)^2/(n_i-1)\)とすると、\((n_i - 1)U_i^2 / \sigma^2 \sim \chi_{n_i - 1}^2\)である。\(U_1^2\)と\(U_2^2\)は独立であることから
\begin{align} (n_1 + n_2 - 2)U^2 / \sigma^2 = \bigl\{ (n_1 - 1 )U_1^2 + (n_2 -1)U_2^2 \bigr\}/ \sigma^2 \sim \chi_{n_1 + n_2 - 2}^2 . \end{align}
また、\(X_{i1}, \ldots, X_{in_i}\)は独立に\(N(\mu_i, \sigma^2)\)に従うので、標本分散の分布より\(\bar{X}_i,\ i = 1,2\)と\(U^2\)は独立であることがいえる。さらに
\(\bar{X}_1 - \bar{X}_2 \sim N(\mu_1 - \mu_2, ( 1/ n_1 + 1/n_2)\sigma^2 )\)
であるので
\begin{align}t &= \cfrac{Z}{\sqrt{ (n_1 + n_2 -2)U^2 / \sigma^2(n_1 + n_2 - 2)}} \\ &= \cfrac{\bar{X}_1 - \bar{X}_2 - \mu_1 - \mu_2}{\sqrt{(1 / n_1 + 1/ n_2) U^2}} \sim t_{n_1 + n_2 -2}.\end{align}
よって、自由度\(n_1 + n_2 -2\)のt分布の上側\(\alpha\)%点を\(t_{n_1+ n_2 -2, \alpha}\)とすると、確率変数\(t\)は次を満たす。
\begin{align} &\mathrm{Pr}\{ -t_{n_1 + n_2 - 2, \alpha / 2} \leq t \leq t_{n_1 + n_2 - 2, \alpha / 2}\} =1- \alpha\\ &\Leftrightarrow \mathrm{Pr}\{ -t_{n_1 + n_2 - 2, \alpha / 2} \leq \cfrac{\bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{(1 / n_1 + 1/ n_2) U^2}} \leq t_{n_1 + n_2 - 2, \alpha / 2}\} =1- \alpha.\end{align}
よって\eqref{eq1}より、\(t\)の信頼区間は次ので表される。
\begin{align} -t_{n_1 + n_2 - 2, \alpha / 2} \leq \cfrac{\bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{(1 / n_1 + 1/ n_2) U^2}} \leq t_{n_1 + n_2 - 2, \alpha / 2}. \end{align}
故に標本\(x_{i1}, \ldots, x_{in_i},\ i = 1,2\)が与えられたとき、\(\mu_1 - \mu_2\)について式変形を行うと\eqref{eq3}の母平均の差\(\mu_1 - \mu_2\)の信頼区間を得る。
\begin{align} & - t_{n_1 + n_2 - 2, \alpha/2} \leq \cfrac{\bar{x}_1 - \bar{x}_2 - (\mu_1 - \mu_2)}{\sqrt{(1 / n_1 + 1/ n_2) u^2}} \leq t_{n_1 + n_2 - 2, \alpha/2} \\ &\Leftrightarrow \bar{x}_1 - \bar{x}_2 - \sqrt{\cfrac{(n_1 + n_2) u^2}{n_1n_2}} t_{n_1 + n_2 - 2, \alpha/2} \leq \mu_1 - \mu_2 \leq \bar{x}_1 - \bar{x}_2 + \sqrt{\cfrac{(n_1 + n_2) u^2}{n_1n_2}} t_{n_1 + n_2 - 2, \alpha/2}. \end{align}