複数のグループ間の平均値の検定である分散分析についてみていく。
ここでは固定効果モデルに基づく、繰り返しのある一元配置分散分析と、繰り返しのない2元配置分散分析を解説する。
一元・二元配置分散分析の検定方法を紹介し、検定統計量の導出を行う。
R言語で分散分析を実行する関数や例は次の記事を参照。
-
R言語 分散分析ANOVAで多群の比較を行う【初心者向け】
こんにちは、usagi-sanです。 今回は、前回の2標本検定の続きの3群以上の比較方法について解説していきます。 前回の2標本検定の記事が見たい方は、次のリンクをクリックしてください。 この記事では ...
続きを見る
分散分析
一元配置分散分析
一元配置分散分析の仮説検定の概要及び検定統計量の導出についてみていく。
ここでは、繰り返しと対応がある一元配置分散分析を紹介する。
一元配置分散分析は以下の多群の平均値の仮説検定である。
次のような群\(A_1, \ldots A_k)から成るデータがあるとする。
\begin{align}\begin{array}{c|cccc} & A_1 & A_2 & \cdots & A_k \\\hline & x_{11} & x_{21} & \cdots & x_{k1}\\ & x_{12} & x_{22} & \cdots & x_{k2}\\ & \vdots & \vdots & & \vdots \\ & x_{1n} & x_{2n} & \cdots & x_{kn}\\\hline 平均 & \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_k \end{array}\end{align}
一元配置分散分析により、「各群\(A_1, \ldots, A_k\)に関して平均値は等しいか」という仮説検定が可能である。
以下、一元配置分散分析の検定手順と検定統計量の導出である。
検定
繰り返しのある一元配置分散分析
標本\(x_{ij}, i=1, \ldots, k, j= 1, \ldots, n\)の確率変数\(X_{ij}\)は次の形で表されるとする。
\begin{align}X_{ij} = \mu + \alpha_i +\epsilon_{ij},\end{align}
ここに、\(\mu\)は総平均(grand mean)、\(\alpha_i\)は\(A_i\)群の効果、\(\epsilon_{ij} \ i.i.d.\ \sim N(0, \sigma^2)\)である。また、\(X_{ij}\)の平均\(\mu_{ij}\)は次のように表される。
\begin{align}\mu_{ij} = \mu + \alpha_i .\end{align}
\(\mu = \mathrm{E}[(1/nk)\sum_{i=1}^n X_{ij}]\)の関係より、
\begin{align}\sum_{i=1}^n\alpha_i&=0\end{align}
である。
「\(A_i, i=1, \ldots, k\)間の平均は等しい」という仮説検定を考える。この仮説検定は効果\(\alpha_i, i = 1,\ldots, k\)を用いて次のよう表される。
\begin{align}\begin{array}{cc} H_{0}: & \alpha_1 = \alpha_2 = \cdots = \alpha_k=0,\\ H_{1}: & \mathrm{not}\ H_{0}, \end{array}.\end{align}
検定統計量として次を用いる。
\begin{align}\label{eq1} F &= \cfrac{n(k-1)\sum_{i=1}^k\sum_{j=1}^n(\bar{X}_{i\cdot} - \bar{X})^2}{(n-1)\sum_{i=1}^k\sum_{j=1}^n(X_ij - \bar{X}_{i\cdot})^2} \sim F_{n(k-1)}^{n-1}, \tag{1}. \end{align}
また、有意水準\(\theta\)の検定の棄却域はそれぞれ次で与えられる。
\begin{align}R &= [F_{n(k-1)}^{n-1}(\theta), \infty),\end{align}
ここに、\(F_b^a(\theta)\)は自由度\(a\)、\(b\)のF分布の上側\(\theta\)点である。
検定統計量の導出
検定統計量\eqref{eq1}を導出する。観測値\(x_{ij}\)と標本平均\(\bar{x}\)との差の平方和は次のように表せる。
\begin{align} \sum_{i=1}^k\sum_{j=1}^n (x_{ij} - \bar{x})^2 = \sum_{i=1}^k \sum_{j=1}^n\bigl\{(\bar{x}_{i\cdot} - \bar{x}) + (x_{ij} - \bar{x}_{i\cdot} )\bigr\}^2 \end{align}
右辺について
\begin{align} \sum_{i=1}^k \sum_{j=1}^n(\bar{x}_{i\cdot} - \bar{x})(x_{ij} - \bar{x}_{i\cdot} ) &= \sum_{i=1}^k(\bar{x}_{i\cdot} - \bar{x}) \sum_{j=1}^n(x_{ij} - \bar{x}_{i\cdot} )\\&= 0 \end{align}
が成り立つので
\begin{align}\label{eq2} \sum_{i=1}^k\sum_{j=1}^n (x_{ij} - \bar{x})^2 = \sum_{i=1}^k \sum_{j=1}^n(\bar{x}_{i\cdot} - \bar{x})^2 + \sum_{i=1}^k \sum_{j=1}^n (x_{ij} - \bar{x}_{i\cdot} )^2.\tag{2} \end{align}
左辺は全変動、右辺の第一項は級間変動 第二項は誤差変動と呼ばれる。
ここで、\(X_{ij}\)は正規分布に従うことから、\(H_0\)の下では確率変数\(\bar{X}_{ i \cdot}\)は次の平均と分散をもつ正規分布に従う。
\begin{align}\mathrm{E}[\bar{X}_{i \cdot}] &= \mathrm{E}\left[ \cfrac{1}{n} \sum_{j=1}^n X_{ij}\right]\\&= \cfrac{1}{n}\sum_{j=1}^n \mathrm{E}[X_{ij}]\\ &= \cfrac{1}{n} \sum_{j=1}^n\mu \\&= \mu, \\ \mathrm{Var}[\bar{X}_{i \cdot }] &= \mathrm{Var}\left[\cfrac{1}{n} \sum_{j=1}^n X_{ij}\right]\\&= \cfrac{1}{n^2}n\sigma^2\\&= \cfrac{1}{n}\sigma^2.\end{align}
さらに\(X_{ij}\)は互いに独立であることから、\(\bar{X}_{i\cdot}\)も\(i\)に関して互いに独立である。よって\(H_{0}\)の下では\(\bar{X}_{i\cdot}\)は平均\(\mu\)、分散\(\sigma^2/n\)をもつ互いに独立な正規変数である。したがって標本分散の分布より
\begin{align}\sum_{i=1}^k(\bar{X}_{i\cdot} - \bar{X})^2 = \sum_{i=1}^{k-1}Z_{i}^2,\end{align}
ここに、\(Z_i,\ i=1,\ldots,m-1\)は互いに独立に平均\(0\)、分散\(\sigma^2/n\)の正規分布に従う確率変数である。故に
\begin{align}\cfrac{\sum_{i=1}^k (\bar{x}_{i\cdot} - \bar{x})^2}{\sigma^2/n} &=\cfrac{\sum_{i=1}^k\sum_{j=1}^n (\bar{x}_{i\cdot} - \bar{x})^2}{\sigma^2}\\&= \sum_{i=1}^{k-1} \left(\cfrac{Z_i}{\sigma/\sqrt{n} }\right)^2 \sim \chi_{k-1}^2.\end{align}
故に\eqref{eq2}の第一項を\(\sigma^2\)で割った確率変数は自由度\(k-1\)のカイ二乗分布に従う。また、\(H_0\)の下で\(\mathrm{E}[X_{ij}] = \mu\)であり、\(X_{ij}\)が互いに独立であることから
\begin{align}\sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X}_{i\cdot} )^2&= \sum_{i=1}^{k} \sum_{j=1}^{n-1} Z_{1j}^2 ,\end{align}
ここに、\(Z_{ij}\)は独立に平均\(0\)、分散\(\sigma^2/n\)の正規分布に従う確率変数である。よって
\begin{align}\cfrac{n\sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X}_{i\cdot} )^2}{\sigma^2} &= \cfrac{\sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X}_{i\cdot} )^2}{\sigma^2/n} \\ &= \sum_{i=1}^{k} \sum_{j=1}^{n-1}\left( \cfrac{Z_{ij} }{\sigma /\sqrt{n} }\right)^2 \sim \chi_{k(n-1)}^2.\end{align}
よって次のように、\eqref{eq2}の右辺の第一項と第二項を\(\sigma^2\)で割り、それぞれの自由度で割った比はF分布に従うことが分かる。
\begin{align} \cfrac{\frac{1}{k-1} \sum_{i=1}^k \sum_{j=1}^n(\bar{x}_{i\cdot} - \bar{x})^2}{\frac{1}{k(n-1)} \sum_{i=1}^k \sum_{j=1}^n (x_{ij} - \bar{x}_{i\cdot} )^2} \sim F_{k(n-1)}^{k-1}\end{align}
これらの結果を次にまとめる。
F検定統計量
確率変数\(X_{ij}\)が独立に平均\(\mu_{ij} = \alpha_i + \mu\)、分散\(\sigma^2\)の正規分布に従うとき、仮説\(H_{0}:\ \alpha_1 = \alpha_2 = \cdots = \alpha_m=0\)の下で
\begin{align}F &= \cfrac{ k(n-1)\sum_{i=1}^k \sum_{j=1}^n(\bar{x}_{i\cdot} - \bar{x})^2}{(k-1) \sum_{i=1}^k \sum_{j=1}^n (x_{ij} - \bar{x}_{i\cdot} )^2} \end{align}
は自由度\(k-1\)、\(k(n-1)\)のF分布に従う。
二元配置分散分析
二元配置分散分析の仮説検定の概要及び検定統計量の導出についてみていく。
二点配置分散分析は以下の2つの因子の群に関する平均値の仮説検定である。
次のような2つの属性\(A\)、\(B\)から成るデータがあるとする。
\begin{align}\begin{array}{c|cccc|c} A \backslash B & B_1 & B_2 & \cdots & B_c & 平均\\\hline A_1 & x_{11} & x_{12} & \cdots & x_{1c} & \bar{x}_{1\cdot}\\ A_2 & x_{21} & x_{22} & \cdots & x_{2c} & & \bar{x}_{2\cdot} \\ \vdots & \vdots & & \vdots &\vdots \\ A_r & x_{r1} & x_{r2} & \cdots & x_{rc} & \bar{x}_{r\cdot}\\\hline 平均 & \bar{x}_{\cdot 1} & \bar{x}_{\cdot 2} & \cdots & \bar{x}_{\cdot c} & \bar{x}\end{array}\end{align}
二元配置分散分析により、「属性\(A\)の各群\(A_1, \ldots, A_r\)に関して平均値は等しいか」と「\(B\)の各群\(B_1 , \ldots, B_c\)に関して平均値は等しいか」という2つの仮説検定が可能である。2つの属性\(A\)と\(B\)に関して仮説検定を行う場合、多重検定となってしまうため注意が必要である。
以下、二元分散分析の検定手順と検定統計量の導出である。
検定
繰り返しのない二元配置分散分析
標本\(x_{ij}, i=1, \ldots, r, j = 1, \ldots, c \)の確率変数\(X_{ij}\)は次の形で表されるとする。
\begin{align}X_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij},\end{align}
ここに、\(\mu\)は総平均(grand mean)、\(\alpha_i\)は\(A_i\)群の効果、\(\beta_j\)は\(B_j\)の効果、\(\epsilon \ i.i.d. \ \sim N(0, \sigma^2)\)である。また、\(X_{ij}\)の平均\(\mu_{ij}\)は次のように表される。
\begin{align}\mu_{ij} = \mu + \alpha_i + \beta_j.\end{align}
\(\mu = \mathrm{E}[(1/rc)\sum_{i=1}^r\sum_{j=1}^cX_{ij}]\)の関係より、
\begin{align}\sum_{i=1}^r\alpha_i&=0,\\ \sum_{j=1}^c \beta_j &= 0\end{align}
である。
「\(A_i, i=1, \ldots, r\)間の平均は等しい」と「\(B_j, j=1, \ldots, c\)間の平均は等しい」という仮説検定を考える。この2つの仮説検定は効果\(\alpha_i, i = 1,\ldots, r\)、\(\beta_j, j= 1,\ldots, c\)を用いて次のよう表される。
\begin{align}\begin{array}{cc} H_{A0}: & \alpha_1 = \alpha_2 = \cdots = \alpha_r=0,\\ H_{A1}: & \mathrm{not}\ H_{A0}, \end{array}\end{align}
\begin{align}\begin{array}{cc} H_{B0}: & \beta_1 = \beta_2 = \cdots = \beta_c=0,\\ H_{B1}: & \mathrm{not}\ H_{B0}.\end{array}\end{align}
検定統計量としてそれぞれ次を用いる。
\begin{align}\label{eq3} F_A &= \cfrac{(c-1)\sum_{i=1}^r\sum_{j=1}^c(\bar{X}_{i\cdot} - \bar{X})^2}{\sum_{i=1}^r\sum_{j=1}^c(X_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j} + \bar{X})^2} \sim F_{(r-1)(c-1)}^{r-1}, \tag{3}\\ F_B &= \cfrac{(r-1)\sum_{i=1}^r\sum_{j=1}^c(\bar{X}_{\cdot j} - \bar{X})^2}{\sum_{i=1}^r\sum_{j=1}^c(X_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j} + \bar{X})^2} \sim F_{(r-1)(c-1)}^{c-1}.\end{align}
また、これら2つの有意水準\(\theta\)の検定の棄却域はそれぞれ次で与えられる。
\begin{align}R_A &= [F_{(r-1)(c-1)}^{r-1}(\theta), \infty),\\ R_B&= [F_{(r-1)(c-1)}^{c-1}(\theta), \infty),\end{align}
ここに、\(F_b^a(\theta)\)は自由度\(a\)、\(b\)のF分布の上側\(\theta\)点である。
検定統計量の導出に関してはこの後行っていく。
検定統計量の導出
観測値\(x_{ij}\)と標本平均\(\bar{x}\)との差の平方和は次のように表せる。
\begin{align} \label{eq4} \sum_{i=1}^r\sum_{j=1}^c (x_{ij} - \bar{x})^2 = \sum_{i=1}^r \sum_{j=1}^c\bigl\{(\bar{x}_{i\cdot} - \bar{x}) + (\bar{x}_{\cdot j} - \bar{x}) + (x_{ij} - \bar{x}_{i\cdot} -\ bar{x}_{\cdot j} + \bar{x}) \bigr\}^2.\tag{4} \end{align}
右辺の平方和に関して次が言える。
\begin{align}\sum_{i=1}^r\sum_{j=1}^c (\bar{x}_{i\cdot} - \bar{x})(\bar{x}_{\cdot j} - \bar{x}) &= \sum_{i=1}^r (\bar{x}_{i\cdot} - \bar{x}) \sum_{j=1}^c(\bar{x}_{\cdot j} - \bar{x}) \\ & = 0,\\ \sum_{i=1}^r \sum_{j=1}^c (\bar{x}_{i\cdot} - \bar{x}) (x_{ij} - \bar{x}_{i\cdot} \bar{x}_{\cdot j} + \bar{x})&= \sum_{i=1}^r(\bar{x}_{i\cdot} - \bar{x}) \sum_{j=1}^c(x_{ij} - \bar{x}_{i \cdot} - \bar{x}_{\cdot j } + \bar{x})\\&= \sum_{i=1}^r(\bar{x}_{i\cdot} -\bar{x})(c\bar{x}_{i\cdot} - c\bar{x}_{i\cdot} - c\bar{x} + c\bar{x}) \\&= 0,\\\sum_{i=1}^r \sum_{j=1}^c (\bar{x}_{j\cdot} - \bar{x}) (x_{ij} - \bar{x}_{i\cdot} \bar{x}_{\cdot j} + \bar{x}) &= 0 .\end{align}
故に\eqref{eq4}は次のように展開される。
\begin{align}\label{eq5}\sum_{i=1}^r \sum_{j=1}^c (x_{ij} - \bar{x}) &= \sum_{i=1}^r \sum_{j=1}^c (\bar{x}_{i\cdot} - \bar{x})^2 + \sum_{i=1}^r \sum_{j=1}^c(\bar{x}_{\cdot j }- \bar{x})^2+ \sum_{i=1}^r \sum_{j=1}^c(x_{ij} - \bar{x}_{i\cdot} - \bar{x}_{\cdot j} + \bar{x})^2.\tag{5}\end{align}
このように総平方和\eqref{eq4}は、3つの成分に分解することができる。第一項は行間変動を、第二項は列間変動を、第三項は行と列の効果を無くしたときの\(x_{ij}\)の変動を表す。
ここで、\(X_{ij}\)は正規分布に従うことから、確率変数\(\bar{X}_{ i \cdot}\)は次の平均と分散をもつ正規分布に従う。
\begin{align}\mathrm{E}[\bar{X}_{i \cdot}] &= \mathrm{E}\left[ \cfrac{1}{c} \sum_{j=1}^c X_{ij}\right]\\&= \cfrac{1}{c}\sum_{j=1}^c \mathrm{E}[X_{ij}]\\ &= \cfrac{1}{c} \sum_{j=1}^c(\alpha_i + \beta_j + \mu) \\&= \alpha_i + \mu, \\ \mathrm{Var}[\bar{X}_{i \cdot }] &= \mathrm{Var}\left[\cfrac{1}{c} \sum_{j=1}^c X_{ij}\right]\\&= \cfrac{1}{c^2}n\sigma^2\\&= \cfrac{1}{c}\sigma^2.\end{align}
また仮説\(H_{A0}\)の下では、\(\mathrm{E}[\bar{X}_{i \cdot}] = \mu\)となる。さらに\(X_{ij}\)は互いに独立であることから、\(\bar{X}_{i\cdot}\)も\(i\)に関して互いに独立である。よって\(H_{A0}\)の下では\(\bar{X}_{i\cdot}\)は平均\(\mu\)、分散\(\sigma^2/c\)をもつ互いに独立な正規変数である。したがって標本分散の分布より
\begin{align}\sum_{i=1}^r(\bar{X}_{i\cdot} - \bar{X})^2 = \sum_{i=1}^{r-1}Z_{i}^2,\end{align}
ここに、\(Z_i,\ i=1,\ldots,r-1\)は互いに独立に平均\(0\)、分散\(\sigma^2/c\)の正規分布に従う確率変数である。故に
\begin{align}\sum_{i=1}^r \cfrac{(\bar{X}_{i\cdot} - \bar{X})^2}{ \sigma^2/ c}&= \sum_{i=1}^r\sum_{j=1}^c \cfrac{(\bar{X}_{i\cdot} - \bar{X})^2}{ \sigma^2} \\&= \sum_{i=1}^{r-1} \left(\cfrac{Z_i}{\sqrt{ \sigma^2/ c}}\right)^2 \sim \chi_{r-1}^2.\end{align}
\eqref{eq5}の右辺の第一項を\(\sigma^2\)で割ったものの確率変数は自由度\(r-1\)のカイ二乗分布に従うことが示せた。\eqref{eq5}の右辺の第3項を\(\sigma^2\)で割ったものの統計量の従う分布の導出は非常に複雑であるため省略する。\(H_{A0}\)と\(H_{B0}\)が成り立つとき、すなわち\(\mu_{ij}\)が全て等しいと仮定すると、\eqref{eq5}の左辺は自由度\(rc-1\)のカイ二乗分布に従い、右辺の第二項は自由度\(c-1\)のカイ二乗分布に従うことが分かる。よってカイ二乗分布の再生性より、左辺の自由度と右辺の自由度が等しくなることから、\eqref{eq5}の第三項は自由度
\(rc-1 - (r-1) - (c-1) = (r-1)(c-1)\)
のカイ二乗分布に従うことが確認できる。次に検定統計量\eqref{eq3}を導出するために、\eqref{eq5}の第一項と第二項が独立であることを証明する必要があるが、この証明も煩雑であるため省く。\eqref{eq5}の左辺と右辺の自由度が等しくなる前提として、右辺の全ての項が互いに独立にカイ二乗分布に従うことがあることから独立であることが確認できる。したがって、次の\eqref{eq5}の第一項と第三項をぞれぞれの自由度で割ったものはF分布に従うことが分かる。
\begin{align} \cfrac{\frac{1}{(r-1)\sigma^2}\sum_{i=1}^r\sum_{j=1}^c(\bar{X}_{i\cdot} - \bar{X})^2}{\frac{1}{(r-1)(c-1)\sigma^2} \sum_{i=1}^r\sum_{j=1}^c(X_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j}+ \bar{X})^2} \sim F_{(r-1)(c-1)}^{r-1}.\end{align}
これらの結果を次にまとめる。
F検定統計量
確率変数\(X_{ij}\)が独立に平均\(\mu_{ij} = \alpha_i + \beta_j + \mu\)、分散\(\sigma^2\)の正規分布に従うとき、仮説\(H_{A0}:\ \alpha_1 = \alpha_2 = \cdots = \alpha_r=0\)の下で
\begin{align}F_A &=\cfrac{(c-1)\sum_{i=1}^r\sum_{j=1}^c(\bar{X}_{i\cdot} - \bar{X})^2}{ \sum_{i=1}^r\sum_{j=1}^c(X_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j}+ \bar{X})^2}\end{align}
は自由度\(r-1\)、\((r-1)(c-1)\)のF分布に従う。
仮説\(H_{B0}\)に対する検定統計量も同様に示すことができる。□