統計学

【統計学】ウィルコクソンの符号順位検定

  1. HOME >
  2. 統計学 >

【統計学】ウィルコクソンの符号順位検定

スポンサーリンク

ノンパラメトリックの検定の一種であるウィルコクソンの符号順位検定について解説する。

ウィルコクソンの符号順位検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。

符号順位統計量の期待値と分散を導出し、Z検定を利用し位置母数に関する検定統計量を導出する。

ノンパラメトリックな位置母数に関する仮説検定であるt検定とウィルコクソンの順位和検定については、以下を参照。

【統計学】t検定 母平均の検定・母平均の差の検定

ここでは、統計学の仮説検定において重要なStudentのt検定について解説する。 母分布である正規分布のパラメータによって様々なt検定の手法が提案されている。 その中でもよく使われるt検定についてみて ...

続きを見る

【統計学】ウィルコクソンの順位和検定

ノンパラメトリックの検定の一種であるウィルコクソンの順位和検定について解説する。 ウィルコクソンの順位和検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。 順位和統計量の期待値と分散を ...

続きを見る

ウィルコクソンの符号順位検定

ウィルコクソンの符号順位検定により位置母数に関する仮説検定を実行することができる。

ウィルコクソンの順位和検定との違いとして、2つの母集団の標本数が同じでなくてはならないという点がある。

すなわちウィルコクソンの符号順位検定はノンパラメトリックな対応のある2標本検定であり、標本数が異なる場合用いることができない。

パラメトリック手法であるt検定と違い、母集団分布を仮定する必要がないという利点がある。

ウィルコクソンの符号順位検定の検定統計量と棄却域は以下の通り。

ウィルコクソンの符号順位検定

\((x_1, y_1), \ldots, (x_n, y_n)\)をある母集団からの2組から成る大きさ\(n\)の標本とし、\(x_1, \ldots, x_n\)と\(y_1, \ldots, y_n\)の母集団分布は同じであると仮定する。また、これらの標本の確率変数を用いて\(Z_i = X_i - Y_i,\ i = 1,\ldots, n\)を定義し、\(Z_i\)の分布の中央値を\(\theta\)とする。\(|z_1|, \ldots, |z_{n}|\)を小さい順に並べ、その順位を\(r_1, \ldots, r_{n_1}\)とする。このとき「2つの母集団の差は中央値\(\theta=0\)を中心に対称である。」という次の仮説を考える。

\begin{align}&H_0:\ \theta = 0\\ &H_1:\ \theta \neq 0\end{align}

この仮説の検定統計量として次を用いる。

\begin{align}\label{eq1} Z = \cfrac{W - \mathrm{E}[W]}{\sqrt{\mathrm{Var}[W]}} \sim N(0,1),\tag{1}\end{align}

ここに、\(W\)は次で定義される順位和統計量である。

\begin{align}W = \sum_{i = 1}^{n_1}I(Z_i > 0)R_i.\end{align}

\(I(\cdot)\)は指示関数である。また、\(W\)の期待値と分散は次で与えられる。

\begin{align}\mathrm{E}[W] &= \cfrac{n(n+ 1)}{4},\\ \mathrm{Var}[W] &= \cfrac{n(n +1)(2n+ 1)}{24}.\end{align}

有意水準\(\alpha\)の検定の棄却域は次のとおりである。

\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}

\eqref{eq1}の検定統計量は大標本の下で標準正規分布に従う。標本数\(n\)が十分に大きいとき、ウィルコクソンの符号順位統計量を用いて位置母数の検定を行うことができる。

検定統計量の導出については以下で行う。

検定統計量の導出

\eqref{eq1}の検定統計量はZ検定統計量であり、符号順位統計量の確率変数\(W\)の期待値と分散を計算することにより、検定統計量を導出することができる。

帰無仮説の下で\(\mathrm{Pr}\{Z_i > 0\} = \mathrm{Pr}\{Z_i \leq 0\}=1/2\)であるので、\(I(Z_i > 0)R_i ,\ i = 1,\ldots, n\)は次の確率変数と同じ分布をもつ。

\begin{align}U_i,\ i = 1, \ldots, n,\end{align}

ここに

\begin{align}\mathrm{Pr}\{U_i = 0\} = \mathrm{Pr}\{U_i = i\}=1/2,\ i = 1,\ldots, n.\end{align}

これは、\(z_i\)が正であるかそうでないかという確率がそれぞれ\(1/2\)であることは、\(r_i\)が検定統計量\(w\)に含まれるか含まれないかという確率がそれぞれ\(1/2\)であることと同じ意味であるから成り立つ。よって、次のようにして\(W\)の期待値を求めることができる。

\begin{align}\mathrm{E}[W] &= \mathrm{E}\left[\sum_{i=1}^{n}I(Z_i > 0)R_{i}\right] \\&= \sum_{i=1}^{n} \mathrm{E}[U_i] \\&= \sum_{i=1}^n \bigl[j \cdot \mathrm{Pr}\{U_i = i\} + 0\cdot \mathrm{Pr}\{U_i= 0\}\bigr] \\&= \sum_{i=1}^n  \cfrac{i}{2}  \\&= \cfrac{1}{2}\cfrac{n(n+1)}{2} \\ &=  \cfrac{n(n + 1)}{4}.\end{align}

また、\(W\)の分散は

\begin{align}\mathrm{Var}[W] = \mathrm{E}[W^2] - (\mathrm{E}[W])^2\end{align}

ここで、\(W\)の2次モーメントは次のように計算できる。

\begin{align} \mathrm{E}[W^2] &= \mathrm{E}\left[\left(\sum_{i=1}^n U_i\right)^2 \right] \\ &= \mathrm{E}\left[\sum_{i=1}^n U_i^2\right] + \mathrm{E}\left[\sum_{i \neq j}U_iU_j\right]\\&= \sum_{i=1}^n i^2\mathrm{Pr}\{U_i = i\} \\&\quad+\sum_{i\neq j} \bigl[ij\cdot \mathrm{Pr}\{U_i = i, U_j = j\}  +0\cdot j\cdot \mathrm{Pr}\{U_i = 0, U_j = j\} \\& \qquad\qquad+ i\cdot0\cdot \mathrm{Pr}\{U_i = i, U_j = 0\}  + 0\cdot\mathrm{Pr}\{U_i = 0, U_j = 0\} \bigr]  \\&= \sum_{i=1}^n\cfrac{i^2}{2}  + \sum_{i\neq j} \cfrac{ij}{4}  \\ &= \cfrac{1}{2}\cfrac{n(n+1)(2n+1)}{6} + \cfrac{1}{4}\left[\left(\sum_{i=1}^ni\right)^2 - \sum_{i=1}^ni^2 \right] \\&= \cfrac{n(n+1)(2n+1)}{12} + \cfrac{1}{4}\left[\left(\cfrac{n(n+1)}{2}\right)^2 - \cfrac{n(n+1)(2n+1)}{6} \right]  \\&=\cfrac{n(n+1)(2n+1)}{24} + \cfrac{n^2(n+1)^2}{16}.\end{align}

よって\(W\)の分散は次となる。

\begin{align}\mathrm{Var}[W] &=\cfrac{n(n+1)(2n+1)}{24} + \cfrac{n^2(n+1)^2}{16}  - \left(\cfrac{n(n+1)}{4}\right)^2\\&=  \cfrac{n(n+1)(2n+1)}{24}. \end{align}

したがって、標本数\(n\)が十分に大きいとき次の統計量は標準正規分布に従う。

\begin{align}\cfrac{W - \mathrm{E}[W]}{\sqrt{\mathrm{Var}[W]}}\end{align}

よって検定統計量\eqref{eq1}が示せた。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-