【統計学】等分散性のF検定・分散の比の検定

2つの母集団の分散の比ついての仮説を検定する際に用いられるF検定を解説する。

F検定の検定統計量の導出や検定統計量がF分布に従うことの証明をしていく。

また、母集団の分散の比を検定しt検定を行う際の検定統計量の導出も行う。

F分布の確率密度関数については、F分布の確率密度関数を参照されたい。

F検定

F検定とは、帰無仮説の下で検定統計量がF分布に従う検定のことを言う。

2つの母集団のける等分散性を検定したい場合に、このF検定が用いられる。

等分散性の検定以外に、分散分析でもこのF検定が用いられる。

様々な分散の比についての仮説検定

分散の比についての検定

検定統計量

分散の比についての検定

\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu, \sigma_2^2)\)からの独立同一な標本であるとする。このとき、次の「2つの母集団の分散\(\sigma_1^2\)と\(\sigma_2^2\)は等しいか」の仮説を検定する。

\begin{align}&H_0: \sigma_1^2 = \sigma_2^2\\&H_1: \sigma_1^2 \neq \sigma_2^2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq1} F = \cfrac{s_1^2}{s_2^2}\sim F_{n_2-1}^{n_1-1},\tag{1}\end{align}

また、有意水準\(\alpha\)の棄却域は次で与えられる。

\begin{align}[0, F_{n_2-1, 1-\alpha/2}^{n_1-1}) \cup (F_{n_2-1, \alpha/2}^{n_1-1}, \infty),\end{align}

ここに、\(s_1^2\)と\(s_2^2\)は次で定義される不偏標本分散の確率変数である。

\begin{align}s_i^2 &= \cfrac{1}{n_i-1}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2,\ \ i = 1, 2,\\ \bar{X}_i &= \cfrac{1}{n_i}\sum_{j=1}^{n_i} X_{ij}, \ \ i = 1, 2.\end{align}

\((n_1-1)s_1^2/\sigma_1^2 \sim \chi_{n_1-1}^2\)、\((n_2-1)s_2^2/\sigma_2^2 \sim \chi_{n_2-1}^2\)である。故に、F分布の確率密度関数より、\(\sigma^2 = \sigma_1^2 = \sigma_2^2\)とすると、帰無仮説の下で

\begin{align}F &=\cfrac{n_2-1}{n_1-1} \cfrac{(n_1-1)s_1^2/\sigma^2}{(n_2-1)s_2^2/\sigma^2}\\&\overset{d}{=} \cfrac{\chi_{n_1-1}^2/(n_1-1)}{\chi_{n_2-1}^2/(n_2-1)}\\&=F_{n_2-1}^{n_1-1}.\end{align}

尤度比検定による統計量の導出

次に、\eqref{eq1}の検定統計量を尤度比から導出する。\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu, \sigma_2^2)\)からの独立同一な標本とする。このとき、次の尤度比を考える。

\begin{align}\lambda = \cfrac{\max_{\mu, \sigma^2} L(\mu, \sigma^2)}{\max_{\mu, \sigma_1^2, \sigma_2^2}(\mu, \sigma_1^2, \sigma_2^2)},\end{align}

ここに\(L(\mu, \sigma^2)\)、\(L(\mu, \sigma_1)^2, \sigma_2^2\)はそれぞれ次で与えられる帰無仮説\(H_0\)と対立仮説\(H_1\)の下での尤度関数である。

\begin{align}L(\mu, \sigma^2) &=\prod_{i=1}^{2}\prod_{j=1}^{n_i} \cfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x_{ij}-\mu)^2},\\ L(\mu, \sigma_1^2, \sigma_2^2) &=\prod_{i=1}^2\prod_{j=1}^{n_i} \cfrac{1}{\sqrt{2\pi\sigma_i^2}}e^{-\frac{1}{2\sigma_i^2}(x_{ij}-\mu)^2}.\end{align}

正規分布の最尤推定量から、\(\mu\)、\(\sigma^2\)、\(\sigma_1^2\)、\(\sigma_2^2\)の最尤推定量\(\hat{\mu}\)、\(\hat{\sigma}^2\)、\(\hat{\sigma}_1^2\)、\(\hat{\sigma}_2^2\)はそれぞれ次となる。

\begin{align}\hat{\mu} &= \bar{x},\\ \hat{\sigma}^2 &= \cfrac{1}{n_1+n_2}\sum_{i=1}^{2}\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2,\\\hat{\sigma}_i^2 &= \cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2,\ \ i = 1, 2.\end{align}

よって、帰無仮説の下での最大尤度は

\begin{align}\max_{\mu, \sigma^2}L(\mu, \sigma^2) &= \prod_{i=1}^2\left\{\cfrac{1}{(2\pi)^{\frac{1}{2}n_i}}\left[\cfrac{1}{n_1+n_2}\sum_{j=1}^{2}\sum_{k=1}^{n_j} (x_{jk} - \bar{x})^2\right]^{-\frac{n_i}{2}} \right\} e^{-\frac{n_1+n_2}{2}\left[\sum_{i=1}^{2}\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{-1} \sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x})^2}\\&= \cfrac{e^{-\frac{1}{2}(n_1 + n_2)}}{(2\pi)^{\frac{1}{2}(n_1 + n_2)}} \left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{-\frac{1}{2}(n_1+n_2)}\end{align}

となり、対立仮説の下の最大尤度は次となる。

\begin{align}\max_{\mu, \sigma_1^2, \sigma_2^2}L(\mu, \sigma_1^2, \sigma_2^2) &= \prod_{i=1}^2\cfrac{1}{(2\pi)^{\frac{1}{2}n_i}}\left[\cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{-\frac{n_i}{2}} e^{-\frac{n_i}{2}\left[\sum_{k=1}^{n_j} (x_{jk} - \bar{x})^2\right]^{-1} \sum_{k=1}^{n_j}(x_{jk}-\bar{x})^2}\\&=\cfrac{e^{-\frac{1}{2}(n_1 + n_2)}}{(2\pi)^{\frac{1}{2}(n_1 + n_2)}} \prod_{i=1}^2\left[\cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{-\frac{n_i}{2}} . \end{align}

故に、尤度比\(\lambda\)は次で表される。

\begin{align}\lambda &= \cfrac{\left[\cfrac{1}{n_1+n_2}\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{-\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^2\left[\cfrac{1}{n_i}\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{-\frac{n_i}{2}}} \\\label{eq2} &= \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)}}\cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}}.\tag{2} \end{align}

したがって、棄却域は次となる。

\begin{align}\lambda < \lambda(\varepsilon),\end{align}

ここに、\(\lambda(\varepsilon)\)は、\(H_0\)が真のとき上式が確率\(\varepsilon\)で成り立つように定義される。ここで、\eqref{eq2}の\(n_1\)と\(n_2\)のべき乗を除いた部分に関して次が成り立つ。

\begin{align}V&=\cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)}} \\&= \cfrac{(n_1 - 1)^{\frac{n_1}{2}}(n_2 - 1)^{\frac{n_2}{2}} (s_1^2)^{\frac{n_1}{2}}(s_2^2)^{\frac{n_2}{2}}}{\left[(n_1-1) s_1^2 + (n_2 - 1)s_2^2\right]^{\frac{1}{2}(n_1 +n_2)}}\\&= \cfrac{(n_1 - 1)^{\frac{n_1}{2}}(n_2 - 1)^{\frac{n_2}{2}} (s_1^2/s_2^2)^{\frac{n_1}{2}}(s_2^2)^{\frac{1}{2}(n_1 +n_2)}}{\left[(n_1-1) s_1^2/s_2^2 + (n_2 - 1)\right]^{\frac{1}{2}(n_1 +n_2)} s_2^{\frac{1}{2}(n_1 + n_2)}}\\\label{eq3}&=\cfrac{(n_1 - 1)^{\frac{n_1}{2}}(n_2 - 1)^{\frac{n_2}{2}} F^{\frac{n_1}{2}}}{\left[(n_1-1) F + (n_2 - 1)\right]^{\frac{1}{2}(n_1 +n_2)}} ,\tag{3}\end{align}ここに\begin{align}F &= \cfrac{s_1^2}{s_2^2}.\end{align}

よって、棄却域は次で表される。

\begin{align}&V < V(\varepsilon)\\ &\Leftrightarrow \cfrac{(n_1 - 1)^{\frac{n_1}{n_1+n_2}}(n_2 - 1)^{\frac{n_2}{n_1 + n_2}} F^{\frac{n_1}{n_1 + n_2}}}{(n_1-1) F + (n_2 - 1)} < \left\{V(\varepsilon)\right\}^{\frac{2}{n_1 + n_2}} \end{align}

今、\(F^{\frac{n_1}{n_1 + n_2}} < F\)であるので、\(F\to\infty\)のとき\(V \to 0\)である。従って、統計量\(F\)に関する棄却域として、次を満たすの2つの不等式が考えられる。

\begin{align}F < F_1(\varepsilon) ,\ \ F > F_2(\varepsilon),\end{align}

ここに、\(F_1(\varepsilon)\)と\(F_2(\varepsilon)\)は\eqref{eq3}が確率\(\varepsilon\)で成り立つ定数である。\(F_1(\varepsilon)\)と\(F_2(\varepsilon)\)の値は\(F\)が自由度\(n_1-1\)、\(n_2-1\)のF分布に従うことから計算することができる。故に、\eqref{eq1}が尤度比から構成されていることが確認できた。

2つの母集団の分散の比と平均の差についての検定

分散の比と平均の差についての検定

\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu_1, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu_2, \sigma_2^2)\)からの独立同一な標本であるとする。このとき、次の「2つの母集団の分散\(\sigma_1^2\)と\(\sigma_2^2\)は等しく、平均\(\mu_1\)と\(\mu_2\)は等しいか」の仮説を検定する。

\begin{align}& H_{0}: \sigma_1^2 = \sigma_2^2,\ \ \mu_1 = \mu_2\\\label{eq4} \tag{4}\\　&H_{1}: \sigma_1^2 \neq \sigma_2^2,\ \ \mu_1 \neq \mu_2\end{align}

検定統計量として次を用いる。

\begin{align}\label{eq5} \lambda= \cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}} \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)} },\tag{5}\end{align}

尤度比検定による統計量の導出

\eqref{eq2}の検定統計量を尤度比から導出する。\(x_{11}, \ldots, x_{1n_1}\)は\(N(\mu, \sigma_1^2)\)からの独立同一な標本であるとし、\(x_{21}, \ldots, x_{2n_2}\)は\(N(\mu, \sigma_2^2)\)からの独立同一な標本とする。検定統計量を導出するために、次の補題を用いる。

補題１

2つの仮説に対する尤度比

\(x\)を、確率密度関数\(f(x | \boldsymbol{\theta})\)をもつ確率変数からの観測値とする。ここに、\(\boldsymbol{\theta}\)は空間\(\Omega\)上の母数である。\(H_{a0}\)を\(\boldsymbol{\theta} \in \Omega_a \subset \Omega\)の帰無仮説とし、\(H_{b0}\)を\(\boldsymbol{\theta} \in \Omega_a\)が与えられたときの\(\boldsymbol{\theta} \in \Omega_a \subset \Omega\)の帰無仮説とし、\(H_{ab0}\)を\(\boldsymbol{\theta} \in \Omega\)が与えられたときの\(\boldsymbol{\theta} \in \Omega_b\)の帰無仮説とする。帰無仮説\(H_{a0}\)を検定するための尤度比\(\lambda_a\)、\(H_{b0}\)を検定するための尤度比\(\lambda_b\)、\(H_{ab0}\)を検定するための尤度比\(\lambda_{ab}\)が\(x\)より一意に定義されるとき

\begin{align}\lambda_{ab} = \lambda_a\lambda_b.\end{align}

証明　

尤度比検定統計量の定義より次が成り立つ。

\begin{align}\lambda_a &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})}, \\ \lambda_b &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})},\\ \lambda_{ab} &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})}.\end{align}

したがって、

\begin{align} \lambda_{ab} &= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})}\\&= \cfrac{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega} f(x | \boldsymbol{\theta})} \cfrac{\max_{\boldsymbol{\theta} \in \Omega_b} f(x | \boldsymbol{\theta})}{\max_{\boldsymbol{\theta} \in \Omega_a} f(x | \boldsymbol{\theta})}\\&= \lambda_a\lambda_b.\ \ \ \ □\end{align}

ここで、次の2つの検定を考える。

\begin{align}&H_{a0}: \sigma_1^2 = \sigma_2^2\\&H_{a1}: \sigma_1^2 \neq \sigma_2^2\end{align}\begin{align} &H_{b0}: \mu_1 = \mu_2, \ \ \mathrm{given} \ \sigma_1^2 =\sigma_2^2\\ &H_{b1}: \mu_1 \neq \mu_2, \ \ \mathrm{given} \ \sigma_1^2 =\sigma_2^2\end{align}

補題1より、\eqref{eq4}の検定の尤度比は次で表される。

\begin{align}\lambda &= \lambda_a\lambda_b\\&= \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2\right]^{\frac{1}{2}(n_1+n_2)}}\cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}} \left[ \cfrac{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2}{\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}\right]^{\frac{1}{2}(n_1+n_2)}\\&=\cfrac{(n_1+n_2)^{\frac{1}{2}(n_1+n_2)}}{\prod_{i=1}^{2} n_i^{\frac{n_i}{2}}} \cfrac{\prod_{i=1}^2\left[\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2\right]^{\frac{n_i}{2}}}{\left[\sum_{i=1}^2\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2\right]^{\frac{1}{2}(n_1+n_2)} }, \end{align}

ここに、\(\lambda_a\)は\eqref{eq2}であり、\(\lambda_b\)は分散が等しい場合の平均の差の検定の尤度比である。\eqref{eq5}の検定統計量の正確な分布を導出することは困難である（F検定やt検定などを用いることができない）。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
【統計学】ウィルコクソンの順位和検定
ノンパラメトリックの検定の一種であるウィルコクソンの順位和検定について解説する。ウィルコクソンの順位和検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。順位和統計量の期待値と分散を ...

: 統計学
【統計学】確率分布の無記憶性
確率分布の重要な性質である無記憶性について解説する。無記憶性の定義を紹介し、幾何分布と指数分布についてこの性質が成り立つことを示す。無記憶性定義１　離散確率分布の無記憶性集合\(\{0, 1, ...

: 統計学
【統計学】加重平均の計算　重み付きの平均　記述統計
重み付きの平均である加重平均について解説する。加重平均の定義やその具体的な計算例や用い方について詳しく見ていく。 R言語での加重平均の計算については以下の記事を参照。算術平均（相加平均）・幾何平均 ...

: 統計学
【統計学】符号検定
ノンパラメトリックの検定の一種である符号検定について解説する。符号検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。検定統計量の期待値と分散を導出し、Z検定を利用し位置母数に関する ...

: 統計学
【統計学】2×2分割表に対する独立性の検定の公式
2×2分割表の独立性の検定の公式について紹介する。 2×2分割表に対する独立性の検定の統計量の公式とその導出法について見ていく。カイ二乗検定については以下の記事を参照されたい。 2×2分割表に対する ...

多変量の連続分布のモーメント【統計学】

【R言語】分散の比の検定・F検定　関数var.testの使い方