R言語　分散分析ANOVAで多群の比較を行う【初心者向け】

改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

ポチップ

RStudioで解析したい方へ

¥3,278 （2022/06/02 22:52時点 | Amazon調べ）

ポチップ

分散分析（ANOVA）の手順

分散分析（ANOVA）の手順を解説していきます。

分散分析には、データの正規性や群間の分散の等質性が前提条件にあったり、分散分析後の事後テストがあったりなど、統計学に詳しくない人にとって、検定が正しく行われているのか判断が難しいことが多いです。

分散分析の実行方法では、それぞれの手順の具体例を与えて、プロットを交えながら、それぞれの検定の役割をみていきます。

分散分析の流れを次の図とステップに示します。

分散分析は図の一番上の正規性の検定から始まります。正規性がない場合はノンパラメトリック手法で行います（ノンパラメトリック手法はこの記事では触れない）。
次に群間（グループ間）の分散等質性の検定を行う。比較したいグループ間の分散が同等であることを検定します。この条件を満たしていれば次の分散分析が適用できます。分散の等質性が満たされない場合は、Welchの分散分析を適用します（分散が異なる場合はここでは触れない）。
分散分析（ANOVA）を行い、群間に差があるかを検定します。ここで、有意な因子（グループを構成するもの、例：品種）が存在するならば、次の事後テストを行います。有意な因子がない場合は、ここで検定を終了し、グループ間に差異はないという結論を得ます。
最後に、有意であった因子に対して事後テストを行います。事後テストを行うことでどの群間に差異があるのかを詳しく見ていきます。例えば、品種A、B、Cに分散分析を行ったとき、分散分析では「品種のどれかの間には違いがある」ということしか分かりません。事後テストでは品種A、B、Cのうちどのペア（例AとB間、AとC間）に違いがあるのかを検証することができます。

分散分析の流れは以上になります。

次では、上のステップごとに、R言語で分散分析を行っていきます。

Rスクリプト上でどのステップにいるのかわからなくなった場合は、上の図を活用することをお勧めします。

一元配置分散分析（ANOVA）

パッケージのインストール

分散分析（ANOVA）やその検定のプロットを行う前提として各種パッケージをインストールする必要があります。

次を実行しパッケージのインストールを行い、ライブラリへの追加を行います。

install.packages("ggpubr")
install.packages("rstatix")

install.packages("ggplot2")
install.packages("gridExtra")

library(ggpubr)
library(rstatix)

library(ggplot2)
library(gridExtra)

install.packages("ggpubr")

install.packages("rstatix")

install.packages("ggplot2")

install.packages("gridExtra")

library(ggpubr)

library(rstatix)

library(ggplot2)

library(gridExtra)

ggpubrは分散分析のプロットに用います。

rstatixは分散分析や事後テストの検定を行うため、またその検定結果をプロット上に表示させるために用います。

これらのパッケージを用いて、次のirisのデータセットを例に分散分析を行っていきます。

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

> head(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1 5.1 3.5 1.4 0.2 setosa

2 4.9 3.0 1.4 0.2 setosa

3 4.7 3.2 1.3 0.2 setosa

4 4.6 3.1 1.5 0.2 setosa

5 5.0 3.6 1.4 0.2 setosa

6 5.4 3.9 1.7 0.4 setosa

正規性の検定

まず分散分析の前提として、正規性の検定を行います。

今回irisのSepal.WidthのデータをSpeciesという因子に関して分散分析をします。

Sepal.Widthが正規性を持たない（母集団が正規分布でない）場合、分散分析を適用することができません。

そこでここで紹介する正規性の検定が必須となります。

次のコードを実行することで、正規性に関するプロット及び正規性の検定を行うことができます。

#正規性の確認
qqnorm(iris$Sepal.Width ,ylab = "wid")
qqline(iris$Sepal.Width)

shapiro_test <- shapiro.test(t(iris$Sepal.Width))

#正規性の確認

qqnorm(iris$Sepal.Width ,ylab = "wid")

qqline(iris$Sepal.Width)

shapiro_test <- shapiro.test(t(iris$Sepal.Width))

2、3行目を実行すると次のようなプロットが表示されます。

y=xの対角線上にデータのプロットが集中しているほど、データが正規性を持つことがいえます。

上の場合、Sepal.Widthは正規性をもっていることがうかがえます。

プロットだけでは判断できない場合も、5行目を実行することで、正規性の検定であるシャピロ・ウィルク検定を行うことができます。

p値が0.05より大きい場合は正規性をもつことがいえて、次のステップに進むことができます。ここで、p値が0.05以下の場合は、クリスカルウォリス検定などの分散分析のノンパラメトリック手法を検討する必要があります。

実際に次を実行すると、Sepal.Widthに関するシャピロ・ウィルク検定のp値は0.1012>0.05であり、正規性があることが分かりました。

> shapiro_test

	Shapiro-Wilk normality test

data:  t(iris$Sepal.Width)
W = 0.98492, p-value = 0.1012

> shapiro_test

Shapiro-Wilk normality test

data: t(iris$Sepal.Width)

W = 0.98492, p-value = 0.1012

正規性の条件が満たされたので、次の群間の分散等質性についてみていきましょう。

群間の分散等質性の検定

正規性の検定に続いて、群間の分散が等しいかどうかを検定していきます。

正規性の検定の時と同様に、分散等質性が満たされない場合、分散分析を適用することができません。

先ほどの正規性の検定の例の続きをみていきます。

群間の分散等質性を検定するには、バートレット検定を行います。

次を実行することで、バートレット検定を行うことができます。

#群間の等分散性
bartlett_test <- bartlett.test(iris$Sepal.Width ~ iris$Species)

1 2	#群間の等分散性 bartlett_test <- bartlett.test(iris$Sepal.Width ~ iris$Species)

barrtlett.test(データ, factor型のベクトル)とすることで、factorのlelves（グループ）ごとのデータの分散が等しいか検定することができます。

bartlett_testの結果を参照すると、次のようにp値0.3515>0.05より、Speciesの各levels（Setosa, versicolor, virginica）のSepal.Widthの分散が等しいことがいえました。

> bartlett_test

	Bartlett test of homogeneity of variances

data:  iris$Sepal.Width by iris$Species
Bartlett's K-squared = 2.0911, df = 2, p-value = 0.3515

> bartlett_test

Bartlett test of homogeneity of variances

data: iris$Sepal.Width by iris$Species

Bartlett's K-squared = 2.0911, df = 2, p-value = 0.3515

よって、Speciesの群間のSepal.Widthの等分散性がいえたので、分散分析に必要な条件がそろいました。次では分散分析の実行方法、検定結果の見方、結果の保存方法についてみていきます。

分散分析（ANOVA）

分散分析のについて解説していきます。

Sepal.Widthを例に、検定の概要を説明します。

分散分析では、次のような「3群（setosa, versicolor, virginica）間にSepal.Widthの変化はないか」を検定します。

           [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20]
setosa      3.5  3.0  3.2  3.1  3.6  3.9  3.4  3.4  2.9   3.1   3.7   3.4   3.0   3.0   4.0   4.4   3.9   3.5   3.8   3.8
versicolor  3.2  3.2  3.1  2.3  2.8  2.8  3.3  2.4  2.9   2.7   2.0   3.0   2.2   2.9   2.9   3.1   3.0   2.7   2.2   2.5
virginica   3.3  2.7  3.0  2.9  3.0  3.0  2.5  2.9  2.5   3.6   3.2   2.7   3.0   2.5   2.8   3.2   3.0   3.8   2.6   2.2

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20]

setosa 3.5 3.0 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 3.7 3.4 3.0 3.0 4.0 4.4 3.9 3.5 3.8 3.8

versicolor 3.2 3.2 3.1 2.3 2.8 2.8 3.3 2.4 2.9 2.7 2.0 3.0 2.2 2.9 2.9 3.1 3.0 2.7 2.2 2.5

virginica 3.3 2.7 3.0 2.9 3.0 3.0 2.5 2.9 2.5 3.6 3.2 2.7 3.0 2.5 2.8 3.2 3.0 3.8 2.6 2.2

つまり上の表に関して、Sepal.Widthの標本を$x_{ij}, i=1,\ldots,50, j=1,2,3$とすると、これらは次の効果モデルで表現される正規分布の標本であると考えられます。

\begin{align}X_{ij}=\mu+ \alpha_j + \varepsilon_{ij} \sim N(0, \sigma^2).\end{align}ただし\begin{align}\sum_{k=1}^3\alpha_k = 1.\end{align}

このとき、次の仮説検定を考えます。

\begin{align}\label{eq1}\left\{\begin{array}{cc}H_0: & \alpha_1 = \cdots = \alpha_3,\\H_1: & \mathrm{not}\ H_0.\end{array}\right.\tag{1}\end{align}

仮説$H_0$はSpecies間の効果$\alpha_j$に違いがないという仮説を表します。つまり、「Sepal.WidthはSpeciesによって変化しない」という仮説検定を行うことができます。

この仮説検定には次の検定統計量を用います。

\begin{align}\label{eq2} F= \cfrac{S_T/2}{S_e/47}\sim F_{47}^{2}\tag{2}\end{align}

ここに、$S_T$、$S_e$は次で与えられる群間平方和、群内平方和である。

\begin{align}S_T&=\sum_{i=1}^50(\bar{x}_{i\cdot}-\bar{x}_{\cdot\cdot})^2\\S_e&=\sum_{i=1}^{50}\sum_{j=1}^3(x_{ij}-\bar{x}_{i\cdot})^2.\end{align}

F値が自由度47、2のF分布の有意水準0.05の棄却域に含まれるか否かで、仮設$H_0$を棄却または採択します。

では、\eqref{eq1}の仮説検定を実行していきます。

分散分析を実行する関数として、パッケージrstatix中のanova_test(data, formula)を用います。分散分析をするのであれば、他のパッケージを領すれば同様の結果を得ることができます。しかし、他のパッケージではプロットに関する機能が充実していないため、このパッケージを用いた説明をしていきます。

次のように、引数を与えることで\eqref{eq1}の分散分析を実行することができます。

#anova
anova <- anova_test(data = iris, Sepal.Length ~ Species)

1 2	#anova anova <- anova_test(data = iris, Sepal.Length ~ Species)

anovaを参照すると次のように、検定結果がリストの中に格納されていることが分かります。p値が1.67e-31<0.05でるため、仮設$H_0$は棄却され、Sepal.WidthはSpeciesによって変化するという結果が得られました。

> anova
ANOVA Table (type II tests)

   Effect DFn DFd       F        p p<.05   ges
1 Species   2 147 119.265 1.67e-31     * 0.619

> anova

ANOVA Table (type II tests)

Effect DFn DFd F p p<.05 ges

1 Species 2 147 119.265 1.67e-31 * 0.619

次で、anovaの各検定結果を抽出する方法を示しています。

#検定結果
effect <- anova$Effect
DFn <- anova$DFn
DFd <- anova$DFd
FValue <- anova$F
pValue <- anova$p

#検定結果

effect <- anova$Effect

DFn <- anova$DFn

DFd <- anova$DFd

FValue <- anova$F

pValue <- anova$p

anova$Effectは効果であり、この場合Speciesにあたります。
anova$DFdは群間平方和$S_T$の自由度で、anova$DFdは群内平方和$S_e$の自由度です。
anova$Fは\eqref{eq2}の検定統計量F値です。
anova$pはこの検定のp値です。

これらの検定結果をcsvファイルへ出力したい値をデータフレームに格納しましょう。

#検定結果をデータフレームに格納
one_way_ANOVA <- data.frame(effect = effect, Fvalue = FValue, pvapue = pValue)

1 2	#検定結果をデータフレームに格納 one_way_ANOVA <- data.frame(effect = effect, Fvalue = FValue, pvapue = pValue)

次のようにwrite.csvを実行することで、検定結果をcsvファイルへ出力できます。

write.csv(one_way_anova, "一元配置分散分析.csv")

1	write.csv(one_way_anova, "一元配置分散分析.csv")

出力結果は次のようになります。

以上で一元配置分散分析の解析は終了しました。分散分析の結果、Sepal.WidthはSpeciesによって変化するという結果が得られたため、次ではどのSpeciesのlevels間に違いがみられるかを事後テストを行うことでみていきます。

事後テスト

事後テストでは、分散分析で有意であった効果の各群の比較を行います。

Speciesに関しSepal.Widthの分散分析を行いましたが、分散分析では「 setosa、versicolor、virginicaどこに違いがあるか」ということは分かりません。事後テストではどのsetosa、versicolor、virginicaのペアに違いがあるのかを明確にします。
今回は、事後テストの中でもよく用いられるテューキーの多重比較検定についてみていきます。

テューキーの多重比較検定では次の仮説検定を行います。

分散分析における標本$x_{ij}$が$N(\mu_j , \sigma^2)$からの観測値であるとき、次の仮説検定を考える。$k, l = 1,2,3,\ k\neq l$に対し

\begin{align}\left\{\begin{array}{cc} H_0: & \mu_k = \mu_l,\\H_1: & \mathrm{not}\ H_0.\end{array}\right. \end{align}

テューキーの多重比較検定は次で実行することができます。

pwc <- tukey_hsd(iris, Sepal.Width ~ Species)

1	pwc <- tukey_hsd(iris, Sepal.Width ~ Species)

pwcを参照すると、多重比較の検定結果が格納されていることが分かります。group1とgroup2が比較しているペアを表し、1行目はsetosaとversicolorの比較を行っています。p値をみてみるとすべてのp値が0.05未満であるため、すべてのSpecies間に差があることが分かります。またp値の大きさからsetosaとversicolorに一番大きな差異がみられることもわかります。

> pwc
# A tibble: 3 x 9
  term    group1     group2     null.value estimate conf.low conf.high    p.adj p.adj.signif
* <chr>   <chr>      <chr>           <dbl>    <dbl>    <dbl>     <dbl>    <dbl> <chr>       
1 Species setosa     versicolor          0   -0.658  -0.819     -0.497 3.10e-14 ****        
2 Species setosa     virginica           0   -0.454  -0.615     -0.293 1.36e- 9 ****        
3 Species versicolor virginica           0    0.204   0.0431     0.365 8.78e- 3 **

> pwc

# A tibble: 3 x 9

term group1 group2 null.value estimate conf.low conf.high p.adj p.adj.signif

* <chr> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>

1 Species setosa versicolor 0 -0.658 -0.819 -0.497 3.10e-14 ****

2 Species setosa virginica 0 -0.454 -0.615 -0.293 1.36e- 9 ****

3 Species versicolor virginica 0 0.204 0.0431 0.365 8.78e- 3 **

同様に、csvファイルへ出力するために、これらの検定結果をデータフレームに格納します。

#データフレームに格納
post_hoc_test <- data.frame(levelA = pwc$group1, levelB = pwc$group2,
                           ci.low = pwc$conf.low, ci.up = pwc$conf.high, pValue = pwc$p.adj)

#データフレームに格納

post_hoc_test <- data.frame(levelA = pwc$group1, levelB = pwc$group2,

ci.low = pwc$conf.low, ci.up = pwc$conf.high, pValue = pwc$p.adj)

次を実行することで、write.csvでcsvファイルへ出力します。

write.csv(post_hoc_test, "Tukey多重比較.csv", row.names = F)

1	write.csv(post_hoc_test, "Tukey多重比較.csv", row.names = F)

"Tukey多重比較.csv"を確認すると、次のように検定結果が出力されたことが分かります。

レッドブルエナジードリンク 250ml×24本

¥3,509 （2022/06/11 02:16時点 | Amazon調べ）

ZONe Ver.2.2.0 type-T エナジードリンク 500mlx24本

ポチップ

¥4,036 （2022/06/11 02:41時点 | Amazon調べ）