統計学

【統計学】ウィルコクソンの順位和検定

  1. HOME >
  2. 統計学 >

【統計学】ウィルコクソンの順位和検定

スポンサーリンク

ノンパラメトリックの検定の一種であるウィルコクソンの順位和検定について解説する。

ウィルコクソンの順位和検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。

順位和統計量の期待値と分散を導出し、Z検定を利用し位置母数に関する検定統計量を導出する。

ノンパラメトリックな位置母数に関する仮説検定であるt検定とウィルコクソンの符号順位検定については、以下を参照。

【統計学】t検定 母平均の検定・母平均の差の検定

ここでは、統計学の仮説検定において重要なStudentのt検定について解説する。 母分布である正規分布のパラメータによって様々なt検定の手法が提案されている。 その中でもよく使われるt検定についてみて ...

続きを見る

【統計学】ウィルコクソンの符号順位検定

ノンパラメトリックの検定の一種であるウィルコクソンの符号順位検定について解説する。 ウィルコクソンの符号順位検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。 符号順位統計量の期待値と ...

続きを見る

Rでのウィルコクソンの順位和検定の実行方法については次の記事を参照。

【R言語】ウィルコクソンの順位和検定 マン・ホイットニーのU検定 関数wilcox.test

R言語でノンパラメトリック検定であるウィルコクソンの順位和検定とマン・ホイットニーのU検定を実行する関数やその実行例を紹介します。 実行例では、正規性をもたないデータセットに対し、ウィルコクソンの順位 ...

続きを見る

統計学の入門書におすすめ!
¥3,080 (2022/06/27 19:34時点 | Amazon調べ)

ウィルコクソンの順位和検定

ウィルコクソンの順位和検定により位置母数に関する仮説検定を実行することができる。

パラメトリック手法であるt検定と違い、母集団分布を仮定する必要がないという利点がある。

ウィルコクソンの順位和検定の検定統計量と棄却域は以下の通り。

ウィルコクソンの順位和検定

\(x_1, \ldots, x_{n_1}\)と\(y_1, \ldots, y_{n_2}\)をそれぞれ確率密度関数\(f(x)\)と\(g(y)\)分布関数\(F(x)\)と\(G(y)\)をもつ母集団からの標本数\(n_1\)、\(n_2\)の標本とする。また、これらの標本\(x_1, \ldots, x_{n_1}\)と\(y_1, \ldots, y_{n_2}\)を小さい順に並べ、ぞれぞれの母集団に対応する順位を\(r_1, \ldots, r_{n_1}\)、\(s_1, \ldots, s_{n_2}\)とする。今、母集団分布の尺度母数は等しいと仮定する。すなわち\(F(x) = G(x + \Delta)\)。ここで、「2つの母集団分布の位置母数が等しい」という次の仮説を考える。

\begin{align}&H_0:\ \Delta = 0\\ &H_1:\ \Delta \neq 0\end{align}

この仮説の検定統計量として次を用いる。

\begin{align}\label{eq1} Z = \cfrac{W - \mathrm{E}[W]}{\sqrt{\mathrm{Var}[W]}} \sim N(0,1),\tag{1}\end{align}

ここに、\(W\)は次で定義される順位和統計量である。

\begin{align}W = \sum_{i = 1}^{n_1}R_i.\end{align}

また、\(W\)の期待値と分散は次で与えられる。

\begin{align}\mathrm{E}[W] &= \cfrac{n_1(n_1 + n_2 + 1)}{2},\\ \mathrm{Var}[W] &= \cfrac{n_1n_2(n_1 + n_2 + 1)}{12}.\end{align}

有意水準\(\alpha\)の検定の棄却域は次のとおりである。

\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}

\eqref{eq1}の検定統計量は大標本の下で標準正規分布に従う。標本数\(n_1\)、\(n_2\)が十分に大きいとき、ウィルコクソンの順位和統計量を用いて位置母数の検定を行うことができる。

検定統計量の導出については以下で行う。

検定統計量の導出

\eqref{eq1}の検定統計量はZ検定統計量であり、順位和統計量の確率変数\(W\)の期待値と分散を計算することにより、検定統計量を導出することができる。

\(W\)の期待値は

\begin{align}\mathrm{E}[W] &= \mathrm{E}\left[\sum_{i=1}^{n_1}R_{i}\right] \\&= \sum_{i=1}^{n_1} \mathrm{E}[R_i] \\&= n_1 \sum_{j=1}^{n_1 + n_2} j \mathrm{Pr}\{R_i = j\} \\&= n_1 \sum_{j=1}^{n_1 + n_2} j \cfrac{1}{n_1 + n_2} \\&= \cfrac{n_1}{n_1 + n_2}\cfrac{(n_1 + n_2)(n_1 + n_2+1)}{2}\\&= \cfrac{n_1(n_1 + n_2 + 1)}{2}\end{align}

上記の期待値の計算途中で、順位\(r_i,\ i = 1,\ldots, n_1\)は重複を許しているため、 \(\mathrm{Pr}\{R_i = j\} = 1/(n_1 + n_2)\)である。また、\(W\)の分散は

\begin{align}\mathrm{Var}[W] = \mathrm{E}[W^2] - (\mathrm{E}[W])^2\end{align}

ここで、\(W\)の2次モーメントは次のように計算できる。

\begin{align} \mathrm{E}[W^2] &= \mathrm{E}\left[\left(\sum_{i=1}^{n_1}R_i\right)^2 \right] \\ &= \mathrm{E}\left[\sum_{i=1}^{n_1}R_i^2\right] + \mathrm{E}\left[\sum_{i \neq j}R_iR_j\right]\\&= n_1 \sum_{j=1}^{n_1 +n_2}j^2\mathrm{Pr}\{R_i = j\} + n_1(n_1-1)\sum_{k\neq l}kl\mathrm{Pr}\{R_i = k\}\mathrm{Pr}\{R_j = l\} \\&= n_1\sum_{j=1}^{n_1 + n_2} \cfrac{j^2}{n_1 +n_2} + n_1(n_1-1) \sum_{k\neq l} \cfrac{kl}{(n_1 + n_2)(n_1 + n_2 - 1)} \\ &= \cfrac{n_1 }{n_1+n_2}\cfrac{(n_1+n_2)(n_1+n_2 + 1)\bigl\{2(n_1+n_2) + 1\bigr\}}{6} \\&\quad + \cfrac{ n_1(n_1-1)}{(n_1 + n_2)(n_1 + n_2 - 1)} \left[\left(\sum_{k = 1}^{n_1 + n_2}k\right)^2 - \sum_{k=1}^{n_1+n_2}k^2 \right]\\ &=\cfrac{n_1(n_1+n_2 + 1)\bigl\{2(n_1+n_2) + 1\bigr\}}{6} \\&\quad+ \cfrac{ n_1(n_1-1)}{(n_1 + n_2)(n_1 + n_2 - 1)} \left[\left(\cfrac{(n_1+n_2)(n_1+n_2 + 1)}{2}\right)^2  - \cfrac{(n_1+n_2)(n_1+n_2+1)\bigl\{2(n_1+n_2) + 1\bigr\}}{6}\right] \\ &= \cfrac{n_1(n_1 +n_2 +1)\bigl\{2(n_1 +n_2 )+1\bigr\}}{6}\\&\quad+  \cfrac{ n_1(n_1-1)(n_1 +n_2 )(n_1 +n_2 +1)^2}{4(n_1 +n_2 - 1)} - \cfrac{ n_1(n_1-1)(n_1 +n_2 +1)\bigl\{2(n_1 +n_2 ) + 1\bigr\}}{6(n_1 +n_2 - 1)}\\&= \cfrac{n_1n_2(n_1+n_2+1)\bigl\{2(n_1+n_2) + 1\bigr\}}{6(n_1+n_2-1)} + \cfrac{ n_1(n_1-1)(n_1 +n_2 )(n_1 +n_2 +1)^2}{4(n_1 +n_2 - 1)} .\end{align}

よって\(W\)の分散は次となる。

\begin{align}\mathrm{Var}[W] &=\cfrac{n_1n_2(n_1+n_2+1)\bigl\{2(n_1+n_2) + 1\bigr\}}{6(n_1+n_2-1)} + \cfrac{ n_1(n_1-1)(n_1 +n_2 )(n_1 +n_2 +1)^2}{4(n_1 +n_2 - 1)} - \left(\cfrac{n_1(n_1 +n_2 + 1)}{2}\right)^2\\&= \cfrac{n_1n_2(n_1+n_2+1)\bigl\{2(n_1+n_2) + 1\bigr\}}{6(n_1+n_2-1)} - \cfrac{n_1n_2(n_1 +n_2 +1)^2}{4(n_1 +n_2 - 1)}\\&= \cfrac{n_1n_2(n_1+n_2+1)}{12}. \end{align}

したがって、標本数\(n_1\)と\(n_2\)が十分に大きいとき次の統計量は標準正規分布に従う。

\begin{align}\cfrac{W - \mathrm{E}[W]}{\sqrt{\mathrm{Var}[W]}}\end{align}

よって検定統計量\eqref{eq1}が示せた。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-