【R言語】ウィルコクソンの順位和検定　マン・ホイットニーのU検定　関数wilcox.test

ポチップ

R言語ではじめるプログラミングとデータ分析

Rでデータ解析を始めるならコレ

¥3,300 （2022/06/01 17:20時点 | Amazon調べ）

ZONe Ver.2.2.0 type-T エナジードリンク 500mlx24本

ポチップ

ウィルコクソンの順位和検定

ノンパラメトリック検定であるウィルコクソンの順位和検定の概要と検定を実行する関数を紹介します。

検定の概要

ウィルコクソンの順位和検定の概要は以下の通りです。

次に示すように、分布（モーメント）を仮定していないのが特徴です。

パラメトリック検定で代表的なt検定では母集団分布に正規性を仮定しましたが、ウィルコクソンの順位和検定ではしないため、標本数が十分であればどのようなデータに対しても位置母数に関する検定を行うことができます。

ウィルコクソンの順位和検定

$x_1, \ldots, x_{n_1}$と$y_1, \ldots, y_{n_2}$をそれぞれ確率密度関数$f(x)$と$g(y)$分布関数$F(x)$と$G(y)$をもつ母集団からの標本数$n_1$、$n_2$の標本とする。また、これらの標本$x_1, \ldots, x_{n_1}$と$y_1, \ldots, y_{n_2}$を小さい順に並べ、ぞれぞれの母集団に対応する順位を$r_1, \ldots, r_{n_1}$、$s_1, \ldots, s_{n_2}$とする。今、母集団分布の尺度母数は等しいと仮定する。すなわち$F(x) = G(x + \Delta)$。ここで、「2つの母集団分布の位置母数が等しい」という次の仮説を考える。

\begin{align}&H_0:\ \Delta = 0\\ &H_1:\ \Delta \neq 0\end{align}

この仮説の検定統計量として次を用いる。

\begin{align} Z = \cfrac{W - \mathrm{E}[W]}{\sqrt{\mathrm{Var}[W]}} \sim N(0,1),\end{align}

ここに、$W$は次で定義される順位和統計量である。

\begin{align}W = \sum_{i = 1}^{n_1}R_i.\end{align}

また、$W$の期待値と分散は次で与えられる。

\begin{align}\mathrm{E}[W] &= \cfrac{n_1(n_1 + n_2 + 1)}{2},\\ \mathrm{Var}[W] &= \cfrac{n_1n_2(n_1 + n_2 + 1)}{12}.\end{align}

有意水準$\alpha$の検定の棄却域は次のとおりである。

\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}

関数wilcox.test

続いてウィルコクソンの順位和検定の関数を紹介します。

次のwilcox.testによって、ウィルコクソンの順位和検定を実行することができます。

2標本検定の場合はマン・ホイットニーのU検定と同じ結果が得られます。

wilcox.test(x, …)

# S3 method for default
wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, …)

# S3 method for formula wilcox.test(formula, data, subset, na.action, …)

また、wilcox.testの引数は以下の通りです。

関数wilcox.testの引数
x	numeric型の観測値のベクトル。有限で無い値は除外される。
y	numeric型の観測値のベクトル。二標本検定の際に用いる。有限で無い値は除外される。
alternative	character型。"two.sided"で両側検定、"greater"で右片側検定、"less"で左片側検定を指定できる。
mu	numeric型。帰無仮説の下での位置パラメータ。
paired	logical型。TRUEのとき対応のある検定をする。
exact	logical型。TRUEのとき正確なp値を算出する。
correct	logical型。TRUEのときp値の計算の際に正規近似に連続性補正を適用する。
conf.int	logical型。TRUEのとき信頼区間を算出する。
conf.level	numeric型。信頼区間の信頼水準。
formula	lhs~rhsの形から成るformula型。lhsは観測値を表すnumeric型の変数名であり、rhsはグループをlevelsにもつfactor型の変数名。
data	formulaで記述した変数をもつデータフレームまたは行列。
subset	どの行を検定に用いるか指定するためのベクトル。
na.action	欠測値NAが含まれているときどうするか。

実行例

wilcox.testの実行例を紹介します。

1標本検定と2標本検定の2つに分けて実行例をみていきます。

ヒストグラムのプロットなどで次のパッケージggplot2を使うので事前にインストールしといてください。

install.packages("ggplot2")
library(ggplot2)

1 2	install.packages("ggplot2") library(ggplot2)

1標本検定

1標本のウィルコクソンの順位和検定を実行例をみていきます。

データセットとして次のtreesを用います。

#1標本検定
dataset &lt;- trees

1 2	#1標本検定 dataset <- trees

データセットtreesは木のGirth（周囲の長さ）、Height（高さ）、Volume（重さ）の3つの変数から構成されます。

&gt; head(dataset)
  Girth Height Volume
1   8.3     70   10.3
2   8.6     65   10.3
3   8.8     63   10.2
4  10.5     72   16.4
5  10.7     81   18.8
6  10.8     83   19.7

> head(dataset)

Girth Height Volume

1 8.3 70 10.3

2 8.6 65 10.3

3 8.8 63 10.2

4 10.5 72 16.4

5 10.7 81 18.8

6 10.8 83 19.7

今、Volumeの位置母数（中央値）に関心があるとします。

Volumeがどのようなデータであるのか把握するために、まずヒストグラムを描いてみます。つぎを実行するとVolumeのヒストグラムがプロットされます。

ggplot(dataset, aes(x = Volume, y = ..density..)) + #ヒストグラム
  geom_histogram(position = "identity", color = "gray", bins = 10, alpha = 0.8) +
  geom_density(stat = "density", position = "identity", color = "black", fill = "black", alpha = 0.4)

ggplot(dataset, aes(x = Volume, y = ..density..)) + #ヒストグラム

geom_histogram(position = "identity", color = "gray", bins = 10, alpha = 0.8) +

geom_density(stat = "density", position = "identity", color = "black", fill = "black", alpha = 0.4)

上の図のヒストグラムからVolumeは左右対称的に分布しておらず、正規性を持たないことが確認できます。

このようなデータに対しt検定などの母集団分布に正規性を仮定する検定を用いるのは不適切であるため、ウィルコクソンの順位和検定により位置母数の検定を行いたいと思います。

「Volumeの中央値は20であるか」という仮説検定は、wilcox.testを用いることで次のように行えます。

mu0 &lt;- 20
testResult &lt;- wilcox.test(dataset$Volume, mu = mu0)

1 2	mu0 <- 20 testResult <- wilcox.test(dataset$Volume, mu = mu0)

testResultを参照すると次のように検定結果がコンソールに表示されます。

&gt; testResult

	Wilcoxon signed rank test with continuity correction

data:  dataset$Volume
V = 399, p-value = 0.003184
alternative hypothesis: true location is not equal to 20

> testResult

Wilcoxon signed rank test with continuity correction

data: dataset$Volume

V = 399, p-value = 0.003184

alternative hypothesis: true location is not equal to 20

ポイント

「p-value = 0.003184」と書いてあることから、Volumeの中央値は20であるとは言えないという結論が得られました（Volumeの中央値は20ではないことが分かりました）。

p値や検定統計量などの検定結果を取得したいときは、次のようにtestResultの後ろに$を付ければ大丈夫です。

stat &lt;- testResult$statistic       #検定統計量
pValue &lt;- testResult$p.value       #p値
nullValue &lt;- testResult$null.value #帰無仮説の下での中央値

stat <- testResult$statistic #検定統計量

pValue <- testResult$p.value #p値

nullValue <- testResult$null.value #帰無仮説の下での中央値

補足として、これらの検定結果をcsvファイルなどに保存する場合は、data.frameを使って検定結果をデータフレームに格納し、write.tableやwrite.csvを用いて外部ファイルへ保存しましょう。以下、csvファイルへの保存例です。

resultTable &lt;- data.frame(stat = stat, p.value = pValue, null.value = nullValue, row.names = NULL)
write.csv(resultTable , "ウィルコクソンの順位和検定.csv", row.names = FALSE)

1 2	resultTable <- data.frame(stat = stat, p.value = pValue, null.value = nullValue, row.names = NULL) write.csv(resultTable , "ウィルコクソンの順位和検定.csv", row.names = FALSE)

¥4,036 （2022/06/11 02:41時点 | Amazon調べ）

ポチップ

レッドブルエナジードリンク 250ml×24本

¥3,509 （2022/06/11 02:16時点 | Amazon調べ）