【統計学】符号検定

ノンパラメトリックの検定の一種である符号検定について解説する。

符号検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。

検定統計量の期待値と分散を導出し、Z検定を利用し位置母数に関する検定統計量を導出する。

ノンパラメトリックな位置母数に関する仮説検定であるt検定については、t検定を参照。

また、ノンパラメトリックな対応の無い2標本検定である順位和検定については、ウィルコクソンの順位和検定を参照。

符号検定

符号検定により中央値に関する仮説検定を実行することができる。

パラメトリック手法であるt検定と違い、母集団分布を仮定する必要がないという利点がある。

ウィルコクソンの順位和検定との違いとして、2標本の符号検定は対応のデータでなくてはならないという点がある。

1標本検定

検定

符号検定の検定統計量と棄却域は以下の通り。

符号検定

\(x_1, \ldots, x_n\)を同一母集団からの大きさ\(n\)の標本とし、その分布の中央値を\(\theta\)とする。このとき「母集団分布の中央値は\(\theta_0\)である。」という次の仮説を考える。

\begin{align}&H_0:\ \theta = \theta_0\\ &H_1:\ \theta \neq \theta_0\end{align}

この仮説の検定統計量として次を用いる。

\begin{align}\label{eq1} Z = \cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}} \sim N(0,1),\tag{1}\end{align}

ここに、\(U\)は次で定義される統計量である。

\begin{align}U &= \sum_{i = 1}^{n_1}Z_i,\\ Z_i &=\left\{ \begin{array}{cc} 1,& \mathrm{if}\ X_i \geq \theta_0,\\ 0, & \mathrm{if}\ X_i < \theta_0 \end{array} \right. , i = 1,\ldots, n.\end{align}

また、\(U\)の期待値と分散は次で与えられる。

\begin{align}\mathrm{E}[W] &= \cfrac{n}{2},\\ \mathrm{Var}[W] &= \cfrac{n}{4}.\end{align}

有意水準\(\alpha\)の検定の棄却域は次のとおりである。

\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}

\eqref{eq1}の検定統計量は大標本の下で標準正規分布に従う。標本数\(n\)が十分に大きいとき、符号検定を用いて位置母数の検定を行うことができる。

検定統計量の導出については以下で行う。

検定統計量の導出

\eqref{eq1}の検定統計量はZ検定統計量であり、統計量\(U\)の期待値と分散を計算することにより、検定統計量を導出することができる。

帰無仮説\(H_0\)の下で、

\(\mathrm{Pr}\{Z_i = 1\} = \mathrm{Pr}\{Z_i = 0\} = 1/2,\ i = 1,\ldots, n\)

であることより、\(U\)の期待値は次のように計算される。

\begin{align}\mathrm{E}[U] &= \mathrm{E}\left[\sum_{i=1}^{n}Z_{i}\right] \\&= \sum_{i=1}^{n} \mathrm{E}[Z_i] \\&= n \left[ 1 \cdot \mathrm{Pr}\{Z_i = 1\} + 0\cdot \mathrm{Pr}\{Z_i = 0\}\right] \\&= n \left[\cfrac{1}{2} + 0\right] \\ &= \cfrac{n}{2}.\end{align}

また、\(U\)の分散は

\begin{align}\mathrm{Var}[U] = \mathrm{E}[W^2] - (\mathrm{E}[W])^2\end{align}

ここで、\(U\)の2次モーメントは次のように計算できる。

\begin{align} \mathrm{E}[U^2] &= \mathrm{E}\left[\left(\sum_{i=1}^{n}Z_i\right)^2 \right] \\ &= \mathrm{E}\left[\sum_{i=1}^{n}Z_i^2\right] + \mathrm{E}\left[\sum_{i \neq j}Z_iZ_j\right]\\&= n \left[1^2 \cdot \mathrm{Pr}\{Z_i = 1\} + 0^2 \cdot \mathrm{Pr}\{Z_i = 0\}\right] + n(n - 1) \left[1^2\cdot \mathrm{Pr}\{Z_i = 1,\ Z_j = 1\} + 0\cdot 1\cdot\mathrm{Pr}\{Z_i = 0,\ Z_j = 1\} + 1\cdot0\cdot\mathrm{Pr}\{Z_i = 1,\ Z_j = 0\} + 0^2\cdot \mathrm{Pr}\{Z_i = 0,\ Z_j = 0\}\right] \\ &= n \cfrac{1}{2} + n(n - 1) \cfrac{1}{4} \\ &= \cfrac{ n(n + 1) }{4}.\end{align}

よって\(U\)の分散は次となる。

\begin{align}\mathrm{Var}[U] &= \cfrac{ n(n + 1) }{4} -\left(\cfrac{n}{2}\right)^2 \\ &= \cfrac{ n}{4}. \end{align}

したがって、標本数\(n\)が十分に大きいとき次の統計量は標準正規分布に従う。

\begin{align}\cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}}\end{align}

よって検定統計量\eqref{eq1}が示せた。

2標本検定

続いて2標本の符号検定をみていく。2標本の符号検定は以下のとおりである。

ウィルコクソンの符号順位検定

\((x_1, y_1), \ldots, (x_n, y_n\)をある母集団からの2組から成る大きさ\(n\)の標本とし、\(x_1, \ldots, x_n\)と\(y_1, \ldots, y_n\)の母集団分布は同じであると仮定する。また、これらの母集団分布の中央値をそれぞれ\(\theta_1\)、\(\theta_2\)とする。このとき「2つの母集団の中央値は等しい。」という次の仮説を考える。

\begin{align}&H_0:\ \theta_1 = \theta_2\\ &H_1:\ \theta_1 \neq \theta_2\end{align}

この仮説の検定統計量として次を用いる。

\begin{align}\label{eq2} Z = \cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}} \sim N(0,1),\tag{2}\end{align}

ここに、\(U\)は次で定義される順位和統計量である。

\begin{align}U &= \sum_{i = 1}^{n} Z_i, \\ Z_i &=\left\{ \begin{array}{cc} 1,& \mathrm{if}\ X_i \geq Y_i,\\ 0, & \mathrm{if}\ X_i < Y_i \end{array} \right. , i = 1,\ldots, n.\end{align}

また、\(U\)の期待値と分散は次で与えられる。

\begin{align}\mathrm{E}[W] &= \cfrac{n(n+ 1)}{4},\\ \mathrm{Var}[W] &= \cfrac{n(n +1)(2n+ 1)}{24}.\end{align}

有意水準\(\alpha\)の検定の棄却域は次のとおりである。

\begin{align}(-\infty, Z(\alpha/2)) \cup (Z(\alpha/2) , \infty)\end{align}

\eqref{eq2}の検定統計量は大標本の下で標準正規分布に従う。標本数\(n\)が十分に大きいとき、符号検定を用いて位置母数の検定を行うことができる。

検定統計量を見れば分かるようにウィルコクソンの符号順位検定は、符号検定に順位が加わったものであると考えられる。

検定統計量の導出

1標本のときと同様に、\eqref{eq2}の検定統計量は導出することができる。

簡便のため、差の確率変数\(S_i = X_i - Y_i,\ i = 1,\ldots, n\)を考える。帰無仮説\(H_0\)の下で\(S_i\)の中央値は\(0\)である。すなわち

\begin{align}&\mathrm{Pr}\{S_i \geq 0\} = \mathrm{Pr}\{S_i = 0\} = \cfrac{1}{2} \\ &\Leftrightarrow \mathrm{Pr}\{X_i \geq Y_i \} = \mathrm{Pr}\{X_i < Y_i\} = 1/2\end{align}

故に

\begin{align}\mathrm{Pr}\{Z_i = 1\} = \mathrm{Pr}\{Z_i = 0\} = \cfrac{1}{2} \end{align}

である。検定統計量\(U\)は確率変数\(Z_i,\ i = 1,\ldots, n\)の和であるため、次のように\(U\)の期待値と分散は1標本のときと同じである。

\begin{align}\mathrm{E}[U] &= \cfrac{n}{2},\\ \mathrm{Var}[U] &= \cfrac{ n}{4}. \end{align}

したがって、標本数\(n\)が十分に大きいとき次の統計量は標準正規分布に従う。

\begin{align}\cfrac{U - \mathrm{E}[U]}{\sqrt{\mathrm{Var}[U]}}\end{align}

よって検定統計量\eqref{eq2}が示せた。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
多変量の連続分布のモーメント【統計学】
この記事では、多変量の連続分布のモーメントについて解説する。多変量の連続分布のモーメントの定義を与え、様々な分布の平均ベクトルや共分散行列を導出する。単変量の連続分布のモーメントに関しては、連続分 ...

: 統計学
連続分布の特性関数【統計学】
ここでは特性関数を定義し、様々な分布の特性関数を導出していく。特性関数と積率（モーメント）との関係も述べる。離散分布の特性関数については、離散分布の特性関数を参照されたい。連続確率変数の特性関数 ...

: 統計学
離散分布の特性関数【統計学】
ここでは特性関数を定義し、様々な分布の特性関数を導出していく。特性関数と確率関数との関係、また、積率（モーメント）との関係も述べる。離散確率変数の特性関数ある確率変数に対して、特性関数が存在する ...

: 統計学
【統計学】ウィルコクソンの符号順位検定
ノンパラメトリックの検定の一種であるウィルコクソンの符号順位検定について解説する。ウィルコクソンの符号順位検定の検定統計量と棄却域を紹介し、それらを導出する方法を紹介する。符号順位統計量の期待値と ...

: 統計学
非心カイ2乗分布の確率密度関数【統計学】
非心カイ2乗分布は、平均が\(0\)とは異なり分散が\(1\)の正規分布の2乗和から成る分布である。正規分布の2乗和で表されることから、正規分布の確率密度関数を変数変換することによって非心カイ2乗分 ...

【統計学】重回帰分析・線形回帰　回帰係数の最小二乗推定量と検定

R言語　検出力・サンプルサイズ　t検定や母比率の検定の検出力の計算