統計学

【統計学】等分散性のF検定・分散の比の検定

  1. HOME >
  2. 統計学 >

【統計学】等分散性のF検定・分散の比の検定

スポンサーリンク

2つの母集団の分散の比ついての仮説を検定する際に用いられるF検定を解説する。

F検定の検定統計量の導出や検定統計量がF分布に従うことの証明をしていく。

また、母集団の分散の比を検定しt検定を行う際の検定統計量の導出も行う。

F分布の確率密度関数については、F分布の確率密度関数を参照されたい。

F検定

F検定とは、帰無仮説の下で検定統計量がF分布に従う検定のことを言う。

2つの母集団のける等分散性を検定したい場合に、このF検定が用いられる。

等分散性の検定以外に、分散分析でもこのF検定が用いられる。

様々な分散の比についての仮説検定

分散の比についての検定

検定統計量

分散の比についての検定

\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu, \sigma_2^2)\)からの独立同一な標本であるとする。このとき、次の「2つの母集団の分散\(\sigma_1^2\)と\(\sigma_2^2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: \sigma_1^2 = \sigma_2^2\\&H_1: \sigma_1^2 \neq \sigma_2^2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq1} F = \cfrac{s_1^2}{s_2^2}\sim F_{n_2-1}^{n_1-1},\tag{1}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えられる。

\begin{align}[0, F_{n_2-1, 1-\alpha/2}^{n_1-1}) \cup (F_{n_2-1, \alpha/2}^{n_1-1}, \infty),\end{align}

ここに、\(s_1^2\)と\(s_2^2\)は次で定義される不偏標本分散の確率変数である。

\begin{align}s_i^2 &= \cfrac{1}{n_i-1}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2,\ \ i = 1, 2,\\ \bar{X}_i &= \cfrac{1}{n_i}\sum_{j=1}^{n_i} X_{ij}, \ \ i = 1, 2.\end{align}

\((n_1-1)s_1^2/\sigma_1^2 \sim \chi_{n_1-1}^2\)、\((n_2-1)s_2^2/\sigma_2^2 \sim \chi_{n_2-1}^2\)である。故に、F分布の確率密度関数より、\(\sigma^2 = \sigma_1^2 = \sigma_2^2\)とすると、帰無仮説の下で

\begin{align}F &=\cfrac{n_2-1}{n_1-1} \cfrac{(n_1-1)s_1^2/\sigma^2}{(n_2-1)s_2^2/\sigma^2}\\&\overset{d}{=} \cfrac{\chi_{n_1-1}^2/(n_1-1)}{\chi_{n_2-1}^2/(n_2-1)}\\&=F_{n_2-1}^{n_1-1}.\end{align}

尤度比検定による統計量の導出

次に、\eqref{eq1}の検定統計量を尤度比から導出する。\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu, \sigma_2^2)\)からの独立同一な標本とする。このとき、次の尤度比を考える。

\begin{align}\lambda = \cfrac{\max_{\mu, \sigma^2} L(\mu, \sigma^2)}{\max_{\mu, \sigma_1^2, \sigma_2^2}(\mu, \sigma_1^2, \sigma_2^2)},\end{align}

ここに\(L(\mu, \sigma^2)\)、\(L(\mu, \sigma_1)^2, \sigma_2^2\)はそれぞれ次で与えられる帰無仮説\(H_0\)と対立仮説\(H_1\)の下での尤度関数である。

\begin{align}L(\mu, \sigma^2) &=\prod_{i=1}^{2}\prod_{j=1}^{n_i} \cfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x_{ij}-\mu)^2},\\ L(\mu, \sigma_1^2, \sigma_2^2) &=\prod_{i=1}^2\prod_{j=1}^{n_i} \cfrac{1}{\sqrt{2\pi\sigma_i^2}}e^{-\frac{1}{2\sigma_i^2}(x_{ij}-\mu)^2}.\end{align}

正規分布の最尤推定量から、\(\mu\)、\(\sigma^2\)、\(\sigma_1^2\)、\(\sigma_2^2\)の最尤推定量\(\hat{\mu}\)、\(\hat{\sigma}^2\)、\(\hat{\sigma}_1^2\)、\(\hat{\sigma}_2^2\)はそれぞれ次となる。

\begin{align}\hat{\mu} &= \bar{x},\\ \hat{\sigma}^2 &= \cfrac{1}{n_1+n_2}\sum_{i=1}^{2}\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2,\\\hat{\sigma}_i^2 &= \cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2,\ \ i = 1, 2.\end{align}

よって、帰無仮説の下での最大尤度は

\begin{align}\max_{\mu, \sigma^2}L(\mu, \sigma^2) &= \prod_{i=1}^2\left\{\cfrac{1}{(2\pi)^{\frac{1}{2}n_i}}\left[\cfrac{1}{n_1+n_2}\sum_{j=1}^{2}\sum_{k=1}^{n_j} (x_{jk}  - \bar{x})^2\right]^{-\frac{n_i}{2}} \right\} e^{-\frac{n_1+n_2}{2}\left[\sum_{i=1}^{2}\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{-1} \sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x})^2}\\&= \cfrac{e^{-\frac{1}{2}(n_1 + n_2)}}{(2\pi)^{\frac{1}{2}(n_1 + n_2)}} \left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{-\frac{1}{2}(n_1+n_2)}\end{align}

となり、対立仮説の下の最大尤度は次となる。

\begin{align}\max_{\mu, \sigma_1^2, \sigma_2^2}L(\mu, \sigma_1^2, \sigma_2^2) &= \prod_{i=1}^2\cfrac{1}{(2\pi)^{\frac{1}{2}n_i}}\left[\cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{-\frac{n_i}{2}} e^{-\frac{n_i}{2}\left[\sum_{k=1}^{n_j} (x_{jk}  - \bar{x})^2\right]^{-1} \sum_{k=1}^{n_j}(x_{jk}-\bar{x})^2}\\&=\cfrac{e^{-\frac{1}{2}(n_1 + n_2)}}{(2\pi)^{\frac{1}{2}(n_1 + n_2)}} \prod_{i=1}^2\left[\cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{-\frac{n_i}{2}} . \end{align}

故に、尤度比\(\lambda\)は次で表される。

\begin{align}\lambda &=  \cfrac{\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{-\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^2\left[\cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{-\frac{n_i}{2}}} \\\label{eq2} &= \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)}}\cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}}.\tag{2} \end{align}

したがって、棄却域は次となる。

\begin{align}\lambda < \lambda(\varepsilon),\end{align}

ここに、\(\lambda(\varepsilon)\)は、\(H_0\)が真のとき上式が確率\(\varepsilon\)で成り立つように定義される。ここで、\eqref{eq2}の\(n_1\)と\(n_2\)のべき乗を除いた部分に関して次が成り立つ。

\begin{align}V&=\cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij}  - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)}} \\&= \cfrac{(n_1 - 1)^{\frac{n_1}{2}}(n_2 - 1)^{\frac{n_2}{2}} (s_1^2)^{\frac{n_1}{2}}(s_2^2)^{\frac{n_2}{2}}}{\left[(n_1-1) s_1^2 + (n_2 - 1)s_2^2\right]^{\frac{1}{2}(n_1 +n_2)}}\\&= \cfrac{(n_1 - 1)^{\frac{n_1}{2}}(n_2 - 1)^{\frac{n_2}{2}} (s_1^2/s_2^2)^{\frac{n_1}{2}}(s_2^2)^{\frac{1}{2}(n_1 +n_2)}}{\left[(n_1-1) s_1^2/s_2^2 + (n_2 - 1)\right]^{\frac{1}{2}(n_1 +n_2)} s_2^{\frac{1}{2}(n_1 + n_2)}}\\\label{eq3}&=\cfrac{(n_1 - 1)^{\frac{n_1}{2}}(n_2 - 1)^{\frac{n_2}{2}} F^{\frac{n_1}{2}}}{\left[(n_1-1) F + (n_2 - 1)\right]^{\frac{1}{2}(n_1 +n_2)}} ,\tag{3}\end{align}ここに\begin{align}F &= \cfrac{s_1^2}{s_2^2}.\end{align}

よって、棄却域は次で表される。

\begin{align}&V < V(\varepsilon)\\ &\Leftrightarrow \cfrac{(n_1 - 1)^{\frac{n_1}{n_1+n_2}}(n_2 - 1)^{\frac{n_2}{n_1 + n_2}} F^{\frac{n_1}{n_1 + n_2}}}{(n_1-1) F + (n_2 - 1)} < \left\{V(\varepsilon)\right\}^{\frac{2}{n_1 + n_2}} \end{align}

今、\(F^{\frac{n_1}{n_1 + n_2}} < F\)であるので、\(F\to\infty\)のとき\(V \to 0\)である。従って、統計量\(F\)に関する棄却域として、次を満たすの2つの不等式が考えられる。

\begin{align}F < F_1(\varepsilon) ,\ \  F > F_2(\varepsilon),\end{align}

ここに、\(F_1(\varepsilon)\)と\(F_2(\varepsilon)\)は\eqref{eq3}が確率\(\varepsilon\)で成り立つ定数である。\(F_1(\varepsilon)\)と\(F_2(\varepsilon)\)の値は\(F\)が自由度\(n_1-1\)、\(n_2-1\)のF分布に従うことから計算することができる。故に、\eqref{eq1}が尤度比から構成されていることが確認できた。

2つの母集団の分散の比と平均の差についての検定

分散の比と平均の差についての検定

\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu_1, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu_2, \sigma_2^2)\)からの独立同一な標本であるとする。このとき、次の「2つの母集団の分散\(\sigma_1^2\)と\(\sigma_2^2\)は等しく、平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説を検定する。

\begin{align}& H_{0}: \sigma_1^2 = \sigma_2^2,\ \ \mu_1 = \mu_2\\\label{eq4} \tag{4}\\ &H_{1}:  \sigma_1^2 \neq \sigma_2^2,\ \ \mu_1 \neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq5} \lambda= \cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}} \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij}  - \bar{x}_i)^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)} },\tag{5}\end{align}

尤度比検定による統計量の導出

\eqref{eq2}の検定統計量を尤度比から導出する。\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu, \sigma_2^2)\)からの独立同一な標本とする。検定統計量を導出するために、次の補題を用いる。

補題1

2つの仮説に対する尤度比

\(x\)を、確率密度関数\(f(x | \boldsymbol{\theta})\)をもつ確率変数からの観測値とする。ここに、\(\boldsymbol{\theta}\)は空間\(\Omega\)上の母数である。\(H_{a0}\)を\(\boldsymbol{\theta} \in \Omega_a \subset \Omega\)の帰無仮説とし、\(H_{b0}\)を\(\boldsymbol{\theta} \in \Omega_a\)が与えられたときの\(\boldsymbol{\theta} \in \Omega_a \subset \Omega\)の帰無仮説とし、\(H_{ab0}\)を\(\boldsymbol{\theta} \in \Omega\)が与えられたときの\(\boldsymbol{\theta} \in  \Omega_b\)の帰無仮説とする。帰無仮説\(H_{a0}\)を検定するための尤度比\(\lambda_a\)、\(H_{b0}\)を検定するための尤度比\(\lambda_b\)、\(H_{ab0}\)を検定するための尤度比\(\lambda_{ab}\)が\(x\)より一意に定義されるとき

\begin{align}\lambda_{ab} = \lambda_a\lambda_b.\end{align}

証明 

尤度比検定統計量の定義より次が成り立つ。

\begin{align}\lambda_a &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})}, \\ \lambda_b &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})},\\ \lambda_{ab} &=  \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})}.\end{align}

したがって、

\begin{align} \lambda_{ab} &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})}\\&= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})} \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})}\\&= \lambda_a\lambda_b.\ \ \ \ □\end{align}

ここで、次の2つの検定を考える。

\begin{align}&H_{a0}: \sigma_1^2 = \sigma_2^2\\&H_{a1}: \sigma_1^2 \neq \sigma_2^2\end{align}\begin{align} &H_{b0}: \mu_1 = \mu_2, \ \ \mathrm{given} \ \sigma_1^2  =\sigma_2^2\\ &H_{b1}: \mu_1 \neq \mu_2, \ \ \mathrm{given} \ \sigma_1^2  =\sigma_2^2\end{align}

補題1より、\eqref{eq4}の検定の尤度比は次で表される。

\begin{align}\lambda &= \lambda_a\lambda_b\\&=  \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij}  - \bar{x}_i)^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij}  - \bar{x}_i)^2\right]^{\frac{1}{2}(n_1+n_2)}}\cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}} \left[ \cfrac{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}\right]^{\frac{1}{2}(n_1+n_2)}\\&=\cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}} \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij}  - \bar{x}_i)^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)} }, \end{align}

ここに、\(\lambda_a\)は\eqref{eq2}であり、\(\lambda_b\)は分散が等しい場合の平均の差の検定の尤度比である。\eqref{eq5}の検定統計量の正確な分布を導出することは困難である(F検定やt検定などを用いることができない)。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-