【統計学】カイ二乗検定　適合度検定・独立性の検定

カテゴリカルデータに関する検定の一種であるカイ二乗検定を解説する。

カイ二乗検定の定義を与え、適合度検定、一様性の検定、独立性の検定の検定統計量や棄却域をみていく。

R言語でのカイ二乗検定の実行方法については、次の記事を参照されたい。

: 【R言語】カイ二乗検定　適合度検定・独立性の検定
R言語でカイ2乗検定を実行する方法を解説していきます。データセットの用意から検定までの一連の流れを紹介していきます。カイ2乗検定の種類として適合度検定や独立性の検定がありますが、R言語に標準で実装さ ...
続きを見る

カイ二乗検定

定義1　カイ二乗検定

カイ二乗検定

ある母集団から\(n\)個の標本が得られ、それらは\(k\)個の互いに排反なクラスに分類されており、各クラスに対応する観測度数を\(O_i,\ i = 1,\ldots, k\)とする。また、観測値が\(i\)番目のクラスに分類される確率を\(p_i\)とし、各観測度数の期待値（期待度数）を\(E_i = np_i\)とおく。帰無仮説が真であり\(n\to \infty\)のとき、次の統計量は自由度\(k-1\)のカイ二乗分布に従う。

\begin{align}\label{eq1} X^2 = \sum_{i=1}^k\cfrac{(O_i - E_i)^2}{E_i},\tag{1}\end{align}

ここに

\begin{align}\sum_{I=1}^k p_i &= 1, \\ \sum_{i=1}^kE_i &=\sum_{i=1}^knp_i = \sum_{i=1}^kO_i. \end{align}

\eqref{eq1}はピアソンのカイ二乗統計量と呼ばれ、この統計量を用いた検定をカイ二乗検定（Pearson's chi-squared test）と呼ぶ。カイ二乗統計量はクラス数-1の自由度のカイ二乗分布に従う。カイ二乗統計量の分布は以下のようにして導出することができる。

カイ二乗統計量の分布

帰無仮説が真であり\(n\to \infty\)のとき、\eqref{eq1}のピアソンのカイ二乗統計量は自由度\(k-1\)のカイ二乗分布に従う。

証明　\(\boldsymbol{x}_1, \boldsymbol{x}_2, \ldots\)を多項分布\(Multinomial(1, \boldsymbol{p})\)からの無作為標本とし、対応する確率ベクトルを\(\boldsymbol{X}_1, \boldsymbol{X}_2, \ldots\)とする。ここに\(\boldsymbol{p} = (p_1, p_2, \ldots, p_k)^T\)。このとき

\begin{align}\mathrm{E}[\boldsymbol{X}_i] &=\mathrm{E}\left[ \begin{pmatrix} X_{i1}\\ X_{i2}\\ \vdots \\ X_{ik}\end{pmatrix} \right] =\begin{pmatrix}p_1\\ p_2 \\ \vdots\\ p_k\end{pmatrix},\\ \mathrm{Var}[\boldsymbol{X}_i] &= \begin{pmatrix}p_1(1- p_1) & -p_1p_2 & \cdots & -p_1p_k \\ -p_1p_2 & p_2(1- p_2) & \cdots & -p_2p_k\\ \vdots &\vdots & \ddots & \vdots\\ -p_1p_k& -p_2p_k & \cdots & p_k(1- p_k)\end{pmatrix} \end{align}

また、\(\boldsymbol{x}_i\)の標本平均ベクトルを\(\bar{\boldsymbol{x}} = (1 / n)\sum_{i=1}^n\boldsymbol{x}_i\)とし、その確率ベクトルを次とする。

\begin{align}\bar{\boldsymbol{X}} &= \begin{pmatrix} \bar{X}_1\\ \bar{X}_2\\ \vdots \\ \bar{X}_k\end{pmatrix}.\end{align}

<.div>\(\boldsymbol{X}\)の各要素をもちいることで、\eqref{eq1}の\(O_i\)は以下のように表される。

\begin{align}\boldsymbol{O} = \begin{pmatrix} O_1 \\ O_2 \\ \vdots \\ O_k\end{pmatrix} =\sum_{i=1}^n\begin{pmatrix}X_{i1} \\ X_{i2} \\ \vdots \\ X_{ik} \end{pmatrix} = n \begin{pmatrix}\bar{X}_1\\ \bar{X}_2 \\ \vdots \\ \bar{X}_k \end{pmatrix}.\end{align}

ここで、次の確率ベクトルを考える。

\begin{align}\boldsymbol{Y} &= \begin{pmatrix} \bar{X}_1 \\ \bar{X}_2\\ \vdots \\ \bar{X}_{k-1}\end{pmatrix}, \\ \mathrm{E}[\boldsymbol{Y}] &= \begin{pmatrix} p_1 \\ p_2\\ \vdots \\ p_{k-1}\end{pmatrix},\\ \mathrm{Var}[\boldsymbol{Y}] &= n^{-1} \begin{pmatrix}p_1(1- p_1) & -p_1p_2 & \cdots & -p_1p_{k - 1} \\ -p_1p_2 & p_2(1- p_2) & \cdots & -p_2p_{k - 1}\\ \vdots &\vdots & \ddots & \vdots\\ -p_1p_{k - 1}& -p_2p_{k - 1} & \cdots & p_{k - 1}(1- p_{k - 1})\end{pmatrix}. \end{align}

中心極限定理より\(n \to \infty\)のとき

\begin{align} \sqrt{n}(\boldsymbol{Y} -\mathrm{E}[\boldsymbol{Y}] ) \sim N(\boldsymbol{0} , n\mathrm{Var}[\boldsymbol{Y}]).\end{align}

故に次の統計量\(Q\)は自由度\( k -1\)のカイ二乗分布に従う。\begin{align}Q&= (\boldsymbol{Y} -\mathrm{E}[\boldsymbol{Y}] )^T\mathrm{Var}[\boldsymbol{Y}]^{-1} (\boldsymbol{Y} -\mathrm{E}[\boldsymbol{Y}] ) \\ &= \left[\begin{pmatrix} O_1 \\ O_2 \\ \vdots \\ O_{k-1} \end{pmatrix} - n \begin{pmatrix} p_1 \\p_2 \\ \vdots \\ p_{ k -1} \end{pmatrix} \right]^T \mathrm{Var}\left[\begin{pmatrix}O_1 \\ O_2 \\\vdots \\O_{k-1} \end{pmatrix} \right]^{-1} \left[\begin{pmatrix} O_1 \\ O_2 \\ \vdots \\ O_{k-1}\end{pmatrix} - n \begin{pmatrix} p_1 \\ p_2 \\ \vdots \\ p_{k-1}\end{pmatrix}\right] \\ &= \boldsymbol{A}^T\boldsymbol{\Sigma}\boldsymbol{A} \sim \chi_{k-1}^2.\end{align}

ここに\begin{align}\boldsymbol{A} &=\begin{pmatrix}O_1 - np_1 \\ \vdots \\ O_{k-1} - np_{k-1}\end{pmatrix},\\\boldsymbol{\Sigma} &= \begin{pmatrix}np_1(1-p_1) & \cdots& -np_1p_{k-1}\\\vdots & \ddots & \vdots\\-np_{k-1}p_{1} & \cdots & np_{k-1}(1-p_{k-1})\end{pmatrix}.\end{align}

ここで、次の対角行列\(\boldsymbol{D}\)を定義する。

\begin{align}\boldsymbol{D} &= \mathrm{diag}(p_1^{1/2}, \ldots, p_{k-1}^{1/2}).\end{align}

\(\boldsymbol{D}\)を用いることで、共分散行列\(\boldsymbol{\Sigma}\)は次のように書き換えられる。

\begin{align}\boldsymbol{\Sigma} &= n\boldsymbol{D}\begin{pmatrix}1 - p_1 & - (p_1p_2)^{1/2} & \cdots & -(p_1p_{k-1})^{1/2}\\\vdots & \vdots & \ddots & \vdots\\-(p_{k-1}p_1)^{1/2} & -(p_{k-1}p_2)^{1/2} & \cdots & 1 - p_{k-1}\end{pmatrix}\boldsymbol{D} \\ &= n\boldsymbol{D}(\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)\boldsymbol{D},\end{align}

ここに

\begin{align}\boldsymbol{E} &= \begin{pmatrix}p_1^{1/2}\\\vdots \\p_{k-1}^{1/2}\end{pmatrix}.\end{align}

故に\(Q\)は

\begin{align}Q &= \boldsymbol{A}^T[n\boldsymbol{D}(\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)\boldsymbol{D}]^{-1}\boldsymbol{A}\\&=\begin{pmatrix}\cfrac{O_1 - np_1}{(np_1)^{1/2}} &\cdots & \cfrac{O_{k-1} - np_{k-1}}{(np_{k-1})^{1/2}}\end{pmatrix}(\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)^{-1}\begin{pmatrix}\cfrac{O_1 - np_1}{(np_1)^{1/2}} \\ \vdots \\ \cfrac{O_{k-1} - np_{k-1}}{(np_{k-1})^{1/2}}\end{pmatrix}\\&= \boldsymbol{F}^T(\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)^{-1}\boldsymbol{F}\end{align}

となる。次に、\((\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)^{-1}\)を展開するために、\(\boldsymbol{EE}^T\)のノルムが1未満であるか確かめる。

\begin{align}\|\boldsymbol{EE}^T\| \leq \|\boldsymbol{E}\|\cdot\|\boldsymbol{E}^T\| = \|\boldsymbol{E}\|^2\end{align}

また、\(\|\boldsymbol{E}\| = \sum_{i=1}^{k-1}p_i < 1\)より、\(\|\boldsymbol{EE}^T\| < 1\)である。よって、\((\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)^{-1}\)はノイマン級数により次のように展開される。

\begin{align}(\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)^{-1} = \sum_{i=0}^{\infty}(\boldsymbol{E}\boldsymbol{E}^T)^{i}.\end{align}

上式より、\(Q\)はさらに次のように表される。

\begin{align}Q &= \boldsymbol{F}^T(\boldsymbol{I} - \boldsymbol{E}\boldsymbol{E}^T)^{-1}\boldsymbol{F}\\\label{eq2}&= \boldsymbol{F}^T[\boldsymbol{I} + \boldsymbol{EE}^T + (\boldsymbol{EE}^T)^2 + \cdots]\boldsymbol{F}.\tag{2}\end{align}

次に、\(\sum_{i=1}^{\infty}(\boldsymbol{EE}^T)^i\)を求める。\(\boldsymbol{E}^T\boldsymbol{E}\)は

\begin{align}\boldsymbol{E}^T\boldsymbol{E} &= \sum_{i=1}^{k-1}p_{i} = 1- p_k\end{align}

であることから、\(l\in\{1, 2, \ldots\}\)に対して

\begin{align}(\boldsymbol{EE}^T)^l &= \boldsymbol{E}(\boldsymbol{E}^T\boldsymbol{E})^{l-1}\boldsymbol{E}^T\\&=(1- p_k)^{l-1} \boldsymbol{E}\boldsymbol{E}^T.\end{align}

したがって、\(\sum_{i=1}^{\infty}(\boldsymbol{EE}^T)^i\)は次のように書ける。

\begin{align}\sum_{i=1}^{\infty}(\boldsymbol{EE}^T)^i &= \sum_{i=0}^{\infty}(1-p_k)^i \boldsymbol{E}\boldsymbol{E}^T\\&= \cfrac{1}{1-(1 - p_k)}\boldsymbol{EE}^T \\&= \cfrac{1}{p_k}\boldsymbol{EE}^T.\end{align}

故に、\eqref{eq2}は

\begin{align}Q &= \boldsymbol{F}^T[\boldsymbol{I} + \boldsymbol{EE}^T + (\boldsymbol{EE}^T)^2 + \cdots]\boldsymbol{F}\\&= \boldsymbol{F}^T\left(\boldsymbol{I} + \cfrac{1}{p_k}\boldsymbol{EE}^T\right)\boldsymbol{F}\\\label{eq3} &=\sum_{i=1}^{k-1}\cfrac{(X_i-np_i)^2}{np_i} + \cfrac{1}{p_k}\boldsymbol{F}^T\boldsymbol{EE}^T\boldsymbol{F}\tag{3}\end{align}

である。今、\(\boldsymbol{F}^T\boldsymbol{E}\)は

\begin{align}\boldsymbol{F}^T\boldsymbol{E} &= \sum_{i=1}^{k-1}\cfrac{O_i - np_i}{n^{1/2}}\\&= \cfrac{(n-O_k)- n (1-p_k)}{n^{1/2}}\\&= \cfrac{np_k - O_k}{n^{1/2}}\end{align}

であることから、\eqref{eq3}の右辺の第2項は

\begin{align}\cfrac{1}{p_k}\boldsymbol{F}^T\boldsymbol{EE}^T\boldsymbol{F}&= \cfrac{1}{p_k}\left(\cfrac{np_k - O_k}{n^{1/2}}\right)^2\\&= \cfrac{(np_k - O_k)^2}{np_k}\end{align}

となる。このことから\eqref{eq2}は、次のようにピアソンのカイ二乗統計量と一致する。

\begin{align}Q &=\sum_{i=1}^{k-1}\cfrac{(O_i - np_i)^2}{np_i} + \cfrac{(np_k - O_k)^2}{np_k}\\&=\sum_{i=1}^{k}\cfrac{(O_i-np_i)^2}{np_i}\end{align}故に、\(n\to \infty\)のとき\begin{align}X^2 \sim \chi_{k-1}^2.□\end{align}

上の証明では、多項分布のモーメント用いた。多項分布のモーメントついては、多変量の離散分布のモーメントを参照されたい。

様々なカイ二乗検定

適合度検定

ある母集団から\(n\)個の標本が得られ、それらは\(k\)個の互いに排反なクラス\(A_i,\ i = 1, \ldots, k\)に分類されており、各クラスに対応する観測度数を\(n_i,\ i = 1, \ldots, k\)とする。また、観測値が\(i\)番目のクラスに分類される確率を\(p_i\)とする。このとき、期待度数\(E_i,\ i = 1,\ldots, k\)は\(\mathrm{E}[n_i] = np_i\)となる。以下の表にこれらをまとめる。

\begin{array}{c|ccc|c} クラス & A_1 & \cdots & A_k &　計 \\\hline 観測度数 & n_1 & \cdots & n_k & n \\ \hline 期待度数 & np_i& \cdots & np_k & n \end{array}

ここで、次の確率\(p_i, \ i=1,\ldots, k\)に関する仮説を考える。

\begin{align}&H_0:\ p_i = p_{i0},\ \ \ \ i=1, \ldots, k\\ &H_1:\ \mathrm{not}\ H_0\end{align}

上記の仮説を検定するために、次の検定統計量を用いる。

\begin{align}\label{eq4} X^2 = \sum_{i=1}^k \cfrac{(n_i - np_i)^2}{np_i}　\sim \chi_{k-1}^2.\tag{4}\end{align}

この検定の有意水準\(\alpha\)の棄却域は次で与えられる。

\begin{align} (\chi_{k-1, \alpha}^2, \infty),\end{align}

ここに、\(\chi_{k-1, \alpha}^2\)は自由度\(k-1\)のカイ二乗分布の上側\(\alpha\)の確率点である。

適合度検定により、観測値が各クラスに分類される確率についての検定を行うことができる。すなわち母集団分布の確率\(p_i,\ i= 1, \ldots, k\)がある特定の値\(p_{0i},\ i = 1, \ldots. k\)であるかの検定が可能である。\(p_i, i = 1, \ldots ,k\)が\(p_{0i},\ i = 1, \ldots, k\)から離れるほど、\eqref{eq4}は大きい値を取る。そのため検定の棄却域は検定統計量の従う分布の右側の確率のみ考えればよい。

一様性の検定

上記の適合度検定で述べた\(k\)個のクラスに関するカテゴリカルデータの検定方法の特殊な例である一様性の検定をみていく。

一様性の検定

2つの属性\(A\)と\(B\)がある場合を考える。\(A\)は\(2\)個の互いに排反なクラス\(A_1, A_2\)をもち、\(B\)は\(k\)個の互いに排反なクラス\(B_1,\ldots, B_k\)をもつとする。ある母集団から\(n\)個の標本が得られ、それらはクラス

\((A_i, B_j),\ i=1 ,2,\ j = 1, \ldots, k\)

に分類されており、\((A_i, B_j)\)に分類された観測度数を\(n_{ij},\ i = 1,\ldots, 2,\ j = 1, \ldots, k\)とする。また、観測値が\((A_i, B_j)\)に分類される確率を\(p_{ij}\)とする。このとき、期待度数\(E_{ij},\ i = 1,\ldots, 2,\ j = 1, \ldots, k\)は\(\mathrm{E}[n_{ij}] = np_{ij}\)となる。属性\(A\)、\(B\)に関する分割表は以下のようになる。

\begin{array}{c|cccc|c} & B_1 & B_2 &\cdots & B_k &　計 \\\hline A_1 & n_{11} & n_{12} & \cdots & n_{1k} & n_{1\cdot} \\ A_2 & n_{21} & n_{22} &\cdots & n_{2k} & n_{2\cdot} \\\hline 計 & n_{\cdot1} & n_{\cdot2} & \cdots & n_{\cdot k} & n\end{array}

ここに、\(n_{i\cdot} = \sum_{j=1}^k n_{ij}\)、\(n_{\cdot j} = \sum_{i=1}^2 n_{ij}\)である。ここで、次の確率\(p_{ij}, \ i=1, 2,\ j = 1, \ldots, k\)に関する仮説を考える。

\begin{align}&H_0:\ p_{1i} = p_{2i},\ \ \ \ i=1, \ldots, k,\\ &H_1:\ \mathrm{not}\ H_0\end{align}

上記の仮説を検定するために、次の検定統計量を用いる。

\begin{align}X^2 = \sum_{i=1}^2 \sum_{j = 1}^k \cfrac{\left(n_{ij} - \frac{n_{i\cdot}n_{\cdot j}}{n}\right)^2 }{ \frac{n_{i\cdot}n_{\cdot j}}{n}} \sim \chi_{k-1}^2\end{align}

この検定の有意水準\(\alpha\)の棄却域は次で与えられる。

\begin{align} (\chi_{k-1, \alpha}^2, \infty),\end{align}

一様性の検定では、\(i = 1, 2, \ldots, k\)に対し\(p_{1i}\)と\(p_{2i}\)が同じであるかを検定している。

独立性の検定

最後に分割表（2元表）に対するカイ二乗検定である独立性の検定を紹介する。

独立性の検定

2つの属性\(A\)と\(B\)がある場合を考える。\(A\)は\(r\)個の互いに排反なクラス\(A_1,\ldots, A_r\)をもち、\(B\)は\(c\)個の互いに排反なクラス\(B_1,\ldots, B_c\)をもつとする。ある母集団から\(n\)個の標本が得られ、それらはクラス

\((A_i, B_j),\ i=1 ,\ldots, r,\ j = 1, \ldots, c\)

に分類されており、\((A_i, B_j)\)に分類された観測度数を\(n_{ij},\ i = 1,\ldots, r,\ j = 1, \ldots, c\)とする。また、観測値が\((A_i, B_j)\)に分類される確率を\(p_{ij}\)とする。このとき、期待度数\(E_{ij},\ i = 1,\ldots, r,\ j = 1, \ldots, c\)は\(\mathrm{E}[n_{ij}] = np_{ij}\)となる。属性\(A\)、\(B\)に関する分割表は以下のようになる。

\begin{array}{c|cccc|c} & B_1 & B_2 &\cdots & B_c &　計 \\\hline A_1 & n_{11} & n_{12} & \cdots & n_{1c} & n_{1\cdot} \\ A_2 & n_{21} & n_{22} &\cdots & n_{2c} & n_{2\cdot} \\ \vdots & \vdots & \vdots & & \vdots & \vdots \\ A_r & n_{r1} & n_{r2} &\cdots & n_{rc} & n_{r\cdot} \\\hline 計 & n_{\cdot1} & n_{\cdot2} & \cdots & n_{\cdot c} & n\end{array}

ここに、\(n_{i\cdot} = \sum_{j=1}^cn_{ij}\)、\(n_{\cdot j} = \sum_{i=1}^r n_{ij}\)である。ここで、次の確率\(p_{ij}, \ i=1,\ldots, r,\ j = 1, \ldots, c\)に関する仮説を考える。

\begin{align}&H_0:\ p_{ij} = p_{i\cdot}p_{\cdot j},\ \ \ \ i=1, \ldots, r,\ j=1, \ldots, c\\ &H_1:\ \mathrm{not}\ H_0\end{align}

ここに、\(p_{i\cdot} = \sum_{j=1}^cp_{ij}\)、\(p_{\cdot j} = \sum_{i=1}^rp_{ij}\)である。上記の仮説を検定するために、次の検定統計量を用いる。

\begin{align}X^2 = \sum_{i=1}^r\sum_{j=1}^c \cfrac{(n_{ij} - \frac{n_{i\cdot } n_{\cdot j} }{n} )^2}{ \frac{n_{i\cdot } n_{\cdot j} }{n} }\sim \chi_{(r-1)(c-1)}^2.\end{align}

この検定の有意水準\(\alpha\)の棄却域は次で与えられる。

\begin{align} (\chi_{(r-1)(c-1), \alpha}^2, \infty),\end{align}

独立性の検定では、観測値が属性\(A\)と\(B\)によって分類される確率\(p_{ij},\ i=1, \ldots, r,\ j = 1, \ldots, c\)が各属性\(A\)と\(B\)がの周辺確率の積\(p_{i\cdot }p_{\cdot j}\)で表されることを検定している。\(A\)と\(B\)の2つの分布について、\(A\)と\(B\)の同時確率\(\mathrm{Pr}\{A = i, \ B = j\}\)が\(A\)と\(B\)の周辺分布の積\(\mathrm{Pr}\{A= i\} \mathrm{Pr}\{B =j\}\)で表されることを意味し、これは\(A\)と\(B\)が独立に分布することを意味する。