ノンパラメトリックの検定の一種である符号検定について解説する。
符号検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。
検定統計量の期待値と分散を導出し、Z検定を利用し位置母数に関する検定統計量を導出する。
ノンパラメトリックな位置母数に関する仮説検定であるt検定については、t検定を参照。
また、ノンパラメトリックな対応の無い2標本検定である順位和検定については、ウィルコクソンの順位和検定を参照。
符号検定
符号検定により中央値に関する仮説検定を実行することができる。
パラメトリック手法であるt検定と違い、母集団分布を仮定する必要がないという利点がある。
ウィルコクソンの順位和検定との違いとして、2標本の符号検定は対応のデータでなくてはならないという点がある。
1標本検定
検定
符号検定の検定統計量と棄却域は以下の通り。
符号検定
\(x_1, \ldots, x_n\)を同一母集団からの大きさ\(n\)の標本とし、その分布の中央値を\(\theta\)とする。このとき「母集団分布の中央値は\(\theta_0\)である。」という次の仮説を考える。
\begin{align}&H_0:\ \theta = \theta_0\\ &H_1:\ \theta \neq \theta_0\end{align}
この仮説の検定統計量として次を用いる。
\begin{align}\label{eq1} Z = \cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}} \sim N(0,1),\tag{1}\end{align}
ここに、\(U\)は次で定義される統計量である。
\begin{align}U &= \sum_{i = 1}^{n_1}Z_i,\\ Z_i &=\left\{ \begin{array}{cc} 1,& \mathrm{if}\ X_i \geq \theta_0,\\ 0, & \mathrm{if}\ X_i < \theta_0 \end{array} \right. , i = 1,\ldots, n.\end{align}
また、\(U\)の期待値と分散は次で与えられる。
\begin{align}\mathrm{E}[W] &= \cfrac{n}{2},\\ \mathrm{Var}[W] &= \cfrac{n}{4}.\end{align}
有意水準\(\alpha\)の検定の棄却域は次のとおりである。
\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}
\eqref{eq1}の検定統計量は大標本の下で標準正規分布に従う。標本数\(n\)が十分に大きいとき、符号検定を用いて位置母数の検定を行うことができる。
検定統計量の導出については以下で行う。
検定統計量の導出
\eqref{eq1}の検定統計量はZ検定統計量であり、統計量\(U\)の期待値と分散を計算することにより、検定統計量を導出することができる。
帰無仮説\(H_0\)の下で、
\(\mathrm{Pr}\{Z_i = 1\} = \mathrm{Pr}\{Z_i = 0\} = 1/2,\ i = 1,\ldots, n\)
であることより、\(U\)の期待値は次のように計算される。
\begin{align}\mathrm{E}[U] &= \mathrm{E}\left[\sum_{i=1}^{n}Z_{i}\right] \\&= \sum_{i=1}^{n} \mathrm{E}[Z_i] \\&= n \left[ 1 \cdot \mathrm{Pr}\{Z_i = 1\} + 0\cdot \mathrm{Pr}\{Z_i = 0\}\right] \\&= n \left[\cfrac{1}{2} + 0\right] \\ &= \cfrac{n}{2}.\end{align}
また、\(U\)の分散は
\begin{align}\mathrm{Var}[U] = \mathrm{E}[W^2] - (\mathrm{E}[W])^2\end{align}
ここで、\(U\)の2次モーメントは次のように計算できる。
\begin{align} \mathrm{E}[U^2] &= \mathrm{E}\left[\left(\sum_{i=1}^{n}Z_i\right)^2 \right] \\ &= \mathrm{E}\left[\sum_{i=1}^{n}Z_i^2\right] + \mathrm{E}\left[\sum_{i \neq j}Z_iZ_j\right]\\&= n \left[1^2 \cdot \mathrm{Pr}\{Z_i = 1\} + 0^2 \cdot \mathrm{Pr}\{Z_i = 0\}\right] + n(n - 1) \left[1^2\cdot \mathrm{Pr}\{Z_i = 1,\ Z_j = 1\} + 0\cdot 1\cdot\mathrm{Pr}\{Z_i = 0,\ Z_j = 1\} + 1\cdot0\cdot\mathrm{Pr}\{Z_i = 1,\ Z_j = 0\} + 0^2\cdot \mathrm{Pr}\{Z_i = 0,\ Z_j = 0\}\right] \\ &= n \cfrac{1}{2} + n(n - 1) \cfrac{1}{4} \\ &= \cfrac{ n(n + 1) }{4}.\end{align}
よって\(U\)の分散は次となる。
\begin{align}\mathrm{Var}[U] &= \cfrac{ n(n + 1) }{4} -\left(\cfrac{n}{2}\right)^2 \\ &= \cfrac{ n}{4}. \end{align}
したがって、標本数\(n\)が十分に大きいとき次の統計量は標準正規分布に従う。
\begin{align}\cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}}\end{align}
よって検定統計量\eqref{eq1}が示せた。
2標本検定
続いて2標本の符号検定をみていく。2標本の符号検定は以下のとおりである。
ウィルコクソンの符号順位検定
\((x_1, y_1), \ldots, (x_n, y_n\)をある母集団からの2組から成る大きさ\(n\)の標本とし、\(x_1, \ldots, x_n\)と\(y_1, \ldots, y_n\)の母集団分布は同じであると仮定する。また、これらの母集団分布の中央値をそれぞれ\(\theta_1\)、\(\theta_2\)とする。このとき「2つの母集団の中央値は等しい。」という次の仮説を考える。
\begin{align}&H_0:\ \theta_1 = \theta_2\\ &H_1:\ \theta_1 \neq \theta_2\end{align}
この仮説の検定統計量として次を用いる。
\begin{align}\label{eq2} Z = \cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}} \sim N(0,1),\tag{2}\end{align}
ここに、\(U\)は次で定義される順位和統計量である。
\begin{align}U &= \sum_{i = 1}^{n} Z_i, \\ Z_i &=\left\{ \begin{array}{cc} 1,& \mathrm{if}\ X_i \geq Y_i,\\ 0, & \mathrm{if}\ X_i < Y_i \end{array} \right. , i = 1,\ldots, n.\end{align}
また、\(U\)の期待値と分散は次で与えられる。
\begin{align}\mathrm{E}[W] &= \cfrac{n(n+ 1)}{4},\\ \mathrm{Var}[W] &= \cfrac{n(n +1)(2n+ 1)}{24}.\end{align}
有意水準\(\alpha\)の検定の棄却域は次のとおりである。
\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}
\eqref{eq2}の検定統計量は大標本の下で標準正規分布に従う。標本数\(n\)が十分に大きいとき、符号検定を用いて位置母数の検定を行うことができる。
検定統計量を見れば分かるようにウィルコクソンの符号順位検定は、符号検定に順位が加わったものであると考えられる。
検定統計量の導出
1標本のときと同様に、\eqref{eq2}の検定統計量は導出することができる。
簡便のため、差の確率変数\(S_i = X_i - Y_i,\ i = 1,\ldots, n\)を考える。帰無仮説\(H_0\)の下で\(S_i\)の中央値は\(0\)である。すなわち
\begin{align}&\mathrm{Pr}\{S_i \geq 0\} = \mathrm{Pr}\{S_i = 0\} = \cfrac{1}{2} \\ &\Leftrightarrow \mathrm{Pr}\{X_i \geq Y_i \} = \mathrm{Pr}\{X_i < Y_i\} = 1/2\end{align}
故に
\begin{align}\mathrm{Pr}\{Z_i = 1\} = \mathrm{Pr}\{Z_i = 0\} = \cfrac{1}{2} \end{align}
である。検定統計量\(U\)は確率変数\(Z_i,\ i = 1,\ldots, n\)の和であるため、次のように\(U\)の期待値と分散は1標本のときと同じである。
\begin{align}\mathrm{E}[U] &= \cfrac{n}{2},\\ \mathrm{Var}[U] &= \cfrac{ n}{4}. \end{align}
したがって、標本数\(n\)が十分に大きいとき次の統計量は標準正規分布に従う。
\begin{align}\cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}}\end{align}
よって検定統計量\eqref{eq2}が示せた。