統計学

【統計学】二項分布とF分布の関係 精密法

  1. HOME >
  2. 統計学 >

【統計学】二項分布とF分布の関係 精密法

スポンサーリンク

二項分布とF分布の関係を解説する。

二項分布の分布関数をF分布の分布関数で表現できることを証明する。

母比率の信頼区間を0から1に抑えることができ、より正確な信頼区間を与えることができる。

大標本の下での母比率の信頼区間については次の記事を参照されたい。

【統計学】母比率・母比率の差の信頼区間

母比率および母比率の差の信頼区間について解説する。 大標本の下での母比率の信頼区間とその導出方法についてみていく。 精密法と呼ばれる正確な母比率の信頼区間については次の記事を参照されたい。 信頼区間 ...

続きを見る

統計学の入門書におすすめ!
¥3,080 (2022/06/27 19:34時点 | Amazon調べ)
統計学の基礎を学習したい方へ
¥2,420 (2022/06/08 18:12時点 | Amazon調べ)

二項分布とF分布の関係

二項分布とF分布の関係

二項分布\(B(n, p)\)に従う確率変数を\(X\)とする。このとき次の関係が成り立つ。

\begin{align} \label{eq1} \mathrm{Pr}\{X \leq x\} = \mathrm{Pr}\left\{F_{\nu_1, \nu_2} \leq \cfrac{\nu_2 ( 1-p)}{\nu_1 p} \right\}\tag{1} ,\end{align}

ここに、\(F_{m, n}\)は第一自由度\(m\)、第二自由度\(n\)のF分布に従う確率変数であり、\(\nu_1=2(n - x)\)、\(\nu_2 = 2(x + 1)\)。

証明 \(X\)の分布関数を次で与える。

\begin{align} \mathrm{Pr}\{X \leq x\} &= \sum_{k = 0}^x \begin{pmatrix} n\\ k\end{pmatrix} p^k ( 1- p)^{n- k}\end{align}

ベータ関数と正則化された不完全ベータ関数を次で与える。

\begin{align} B(a,b) &=\int_0^1 t^{a- 1} (1 - t)^{b-1}dt\\ &= \cfrac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)} \\ &= \cfrac{(a - 1 )! (b - 1)! }{(a + b - 1)!} , \\ I_z(a, b) &= \cfrac{1}{B(a ,b)} \int_{0}^zt^{a- 1} (1 -t)^{b- 1}dt .\end{align}

次の正則化された不完全ベータ関数の性質

\begin{align} I_z( a, b) = I_z( a + 1, b - 1) + \cfrac{z^a(1 - z)^{b - 1}}{a B(a, b)}\end{align}

より

\begin{align} I_z(a, b ) &= \cfrac{1}{B(a, b)} \int_0^z t^{a - 1}(1 - t)^{b - 1}dt\\ &= \sum_{k = 0}^{b - 1} \cfrac{z^{a + k}(1 - z)^{b - 1- k}}{(a +k) B(a + k, b -k)}. \end{align}

上式に\(z = 1- p\)、\(a = n -x \)、\(b = x + 1\)を適用することで次を得る。

\begin{align} \cfrac{1}{B( n - x, x + 1)} \int_0^{1 - p} t^{ n - x - 1}(1 - t)^{x}dt &= \sum_{k= 0}^x \cfrac{p^{x- k} (1 - p)^{n - x+ k} }{(n -x +k) B(n -x + k, x+ 1-k)} \\ &= \sum_{k = 0}^x \cfrac{p^{x- k} (1 - p)^{n - x+ k} }{(n -x +k) (n - x + k - 1)!(x - k)! / n! } \\ &= \sum_{k = 0}^x \begin{pmatrix}n \\ x - k\end{pmatrix} p^{x- k} (1 - p)^{n - x+ k} \\ &= \sum_{k = 0}^x \begin{pmatrix}n \\ k \end{pmatrix} p^k (1 - p)^{n - k} \\ \label{eq2} & = \mathrm{Pr}\{X \leq x\}. \tag{2}\end{align}

ここで、上式の左辺を次のように変換する。

\begin{align} f &= \cfrac{\nu_2 t }{\nu_1(1 - t)}, \\ \nu_1 &= 2(n - x),\\ \nu_2 &= 2(x + 1).\end{align}また\begin{align} \cfrac{dt}{ df} &= \cfrac{d}{df} \cfrac{\nu_1 f}{\nu_1 f + \nu_2}\\ &= \cfrac{\nu_1(\nu_1 f + \nu_2) - \nu_1^2 f}{(\nu_1 f + \nu_2)^2}\\ &= \cfrac{\nu_1\nu_2}{(\nu_1 f + \nu_2)^2}\end{align}

であることから、\eqref{eq1}の左辺は次となる。

\begin{align} &  \cfrac{1}{B( n - x, x + 1)} \int_0^{1 - p} t^{ n - x - 1}(1 - t)^{x}dt \\&= \cfrac{1}{B( \nu_1 / 2, \nu_2 / 2)} \int_0^{\nu_2 ( 1-p)/ \nu_1 p} \left( \cfrac{\nu_1 f}{\nu_1 f + \nu_2} \right)^{ \nu_1 / 2 - 1} \left(1 - \cfrac{\nu_1 f}{\nu_1 f + \nu_2} \right)^{\nu_2 / 2 - 1} \cfrac{\nu_1\nu_2}{(\nu_1 f + \nu_2)^2}df\\ &=  \cfrac{1}{B( \nu_1 / 2, \nu_2 / 2)} \int_0^{\nu_2 ( 1-p)/ \nu_1 p} \left(\cfrac{\nu_1}{\nu_2} \right)^{\nu_1 / 2 - 1}\left( \cfrac{f}{1 + (\nu_1 / \nu_2) f } \right)^{ \nu_1 / 2 - 1} \left( \cfrac{1}{1 + (\nu_1 / \nu_2) f} \right)^{\nu_2 / 2 - 1} \cfrac{\nu_1}{ \nu_2 \left\{1 + (\nu_1 / \nu_2) f \right\}^2}df \\ &=  \cfrac{1}{B( \nu_1 / 2, \nu_2 / 2)} \int_0^{\nu_2 ( 1-p)/ \nu_1 p} \left(\cfrac{\nu_1}{\nu_2} \right)^{\nu_1 / 2} f^{ \nu_1 / 2 - 1} \left(1 + \cfrac{\nu_1}{\nu_2} f \right)^{\nu_1 + \nu_2} df\end{align}

上式の右辺は自由度\(\nu_1\)、\(\nu_2\)のF分布の分布関数であることが分かる。よって

\begin{align} \mathrm{Pr}\{X \leq x\} = \mathrm{Pr}\left\{F_{\nu_1, \nu_2} \leq \cfrac{\nu_2 ( 1-p)}{\nu_1 p} \right\} \end{align}

母比率の信頼区間(精密法)

母比率の信頼区間(精密法)

二項分布のパラメータである母比率\(p\)の\(100(1 - \alpha)\)%信頼区間は次で与えられる。

\begin{align} \left[ \cfrac{\eta_2}{\eta_2 + \eta_1 F_{\eta_1, \eta_2}(\alpha / 2)} , \cfrac{\nu_2 F_{\nu_2, \nu_1 }(\alpha / 2)}{\nu_1 +\nu_2 F_{\nu_2 , \nu_1}(\alpha/ 2)} \right]. \end{align}

ここに、\(F_{m, n}(\alpha)\)は第一自由度\(m\)、第二自由度\(n\)のF分布の上側\(\alpha\)点であり

\begin{align} \nu_1 &= 2(n - x),\\ \nu_2 &= 2(x + 1), \\ \eta_1 &=2(n - x +1), \\ \eta_2 &=2x .\end{align}

証明 \(p\)の分布の下側確率と上側確率がそれぞれ\(\alpha / 2\)となるような点\(l(\alpha / 2)\)と\(u(\alpha / 2) \)を次のように定める。

\begin{align}\mathrm{Pr}\{ p \leq l(\alpha / 2)\} &= \alpha / 2,\\ \mathrm{Pr} \{p \geq u(\alpha / 2)\} &= \alpha / 2\end{align}

\eqref{eq1}より、次が成り立つ。

\begin{align} \mathrm{Pr}\{X \geq k + 1\} &= 1 - \mathrm{Pr}\{ X \leq k\}\\ &= 1 - \mathrm{Pr}\left\{F_{\nu_1, \nu_2} \leq \cfrac{\nu_2 ( 1-p)}{\nu_1 p} \right\} \\ \label{eq3} &= \mathrm{Pr}\left\{F_{\nu_1, \nu_2} \geq \cfrac{\nu_2 ( 1-p)}{\nu_1 p} \right\} \tag{3} \end{align}

\(k + 1\)を\(k \)で置き換えることで次の上側確率を得る。

\begin{align} \mathrm{Pr}\{X \geq k \} &= \mathrm{Pr}\left\{F_{\eta_1, \eta_2} \geq \cfrac{\eta_2 ( 1-p)}{\eta_1 p} \right\} ,\end{align}

ここに

\begin{align}\eta_1 &=2(n - x +1), \\ \eta_2 &=2x .\end{align}

今、\(p = X/n\)であることより

\begin{align} \mathrm{Pr}\{ p \leq l(\alpha / 2)\} &= \mathrm{Pr}\{X \leq n l(\alpha / 2)\},\\ \mathrm{Pr}\{p \geq u(\alpha / 2)\} &= \mathrm{Pr}\{X \geq n u(\alpha / 2)\}. \end{align}

上式は\eqref{eq1}と\eqref{eq3}の右辺が\(\alpha / 2\)となることを意味するので

\begin{align}\cfrac{\nu_2 ( 1-p)}{\nu_1 p} = F_{\nu_1, \nu_2}(1 - \alpha / 2) &\Leftrightarrow \mathrm{Pr}\{X \leq n l(\alpha / 2)\} = \alpha/2,\\ \cfrac{\eta_2 ( 1-p)}{\eta_1 p} = F_{\eta_1, \eta_2}(\alpha / 2) &\Leftrightarrow \mathrm{Pr}\{X \geq n u(\alpha / 2)\} = \alpha/2, \end{align}

ここに\(F(n ,m )(\alpha)\)は自由度\(n\)、\(m\)のF分布の上側\(\alpha\)点。例えば、上の1番目の式は、左辺の比率\(p\)の分数が\( F_{\nu_1, \nu_2}(1 - \alpha / 2)\)未満となると\(X\)の下側確率が\(\alpha / 2\)未満となることを意味し、また上側確率についても同様にいえる。よって母比率\(p\)の信頼度\(1 - \alpha\)の信頼区間は次のように導出できる。

\begin{align}& \cfrac{\nu_2 ( 1-p)}{\nu_1 p} \geq F_{\nu_1, \nu_2}(1 - \alpha / 2) ,\quad \cfrac{\eta_2 ( 1-p)}{\eta_1 p} \leq F_{\eta_1, \eta_2}(\alpha / 2) \\ &\Leftrightarrow \cfrac{\nu_2 ( 1-p)}{\nu_1 p} \geq \cfrac{1}{F_{\nu_2, \nu_1}(\alpha / 2)} ,\quad \cfrac{\eta_2 ( 1-p)}{\eta_1 p} \leq F_{\eta_1, \eta_2}(\alpha / 2) \\ &\Leftrightarrow \cfrac{\eta_2}{\eta_2 + \eta_1 F_{\eta_1, \eta_2}(\alpha / 2)} \leq p \leq \cfrac{\nu_2 F_{\nu_2, \nu_1 }(\alpha / 2)}{\nu_1 +\nu_2 F_{\nu_2 , \nu_1}(\alpha/ 2)} .\end{align}

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-