【統計学】離散分布の累積分布関数

離散分布の累積分布関数についてみていく。連続分布と同様に、離散分布の累積分布関数も確率（確率質量）の和で表される。
まず、離散分布に対する累積分布関数の定義を与え、その定義から様々な累積分布関数を導出していく。
連続分布の累積分布関数については、連続分布の累積分布関数を参照されたい。

離散分布の累積分布関数

定義１　累積分布関数（離散分布）

確率関数\(\mathrm{Pr}\{X=x_k\}, \ k= 1, \ldots\)をもつ確率変数\(X\)の累積分布関数は次で定義される。

\begin{align}F(x) = \sum_{x_k\leq x}^x \mathrm{Pr}\{X= x_k\},\end{align}ここに、\(x\)は整数とする。

上記の定義で\(x\)を整数としているが、\(x\)が実数の場合にも床関数\(\lfloor x\rfloor\)を用いることで表現することができる。

種々の離散分布の累積分布関数

ベルヌーイ分布

確率変数\(X\)がベルヌーイ分布\に従うとき、\(0\leq p\leq 1\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}\mathrm{Pr}\{X=1\} &= p,\\ \mathrm{Pr}\{X=0\}&=1-p. \end{align}

ベルヌーイ分布に従う確率変数\(X\)の累積分布関数を導出する。離散分布の累積分布関数の定義より、\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x) &= \sum_{x_k \leq x}\mathrm{Pr}\{X = x_k\}\\&=\left\{ \begin{array}{cc}0, & x < 0,\\ 1-p, & 0\leq x < 1,\\ 1, & x\geq 1\end{array}\right.. \end{align}

2項分布

確率変数\(X\)が2項分布に従うとき、\(0\leq p\leq 1\)、\(n\in\{0, 1, 2, \ldots\}\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}\mathrm{Pr}\{X=k\}=\begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}, \ \ \ \ k = 0, 1, 2, \ldots, n.\end{align}

2項分布に従う確率変数\(X\)の累積分布関数を導出する。\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x) &= \sum_{k=0}^x \begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}\\\label{eq1}&=\sum_{k=0}^x \begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}\tag{1}\end{align}

となり、ここで次の\(\mathrm{Re}\ x>0\)、\(\mathrm{Re}\ y >0\)を満たす複素数\(x\)、\(y\)に対して定義される正規化された不完全ベータ関数を用いる。

\begin{align}\label{eq2}I(z; x, y)&= \cfrac{1}{B(x, y)}\int_0^{z}t^{x-1}(1-t)^{y-1}dt.\tag{2}\end{align}

\eqref{eq1}の累積分布関数が不完全ベータ関数で表現されることを示す。\eqref{eq2}を部分積分することで次を得る。

\begin{align}&\cfrac{1}{B(x, y)}\int_0^{z}t^{x-1}(1-t)^{y-1}dt\\&= \cfrac{(x+y-1)!}{(x-1)!(y-1)!}\left\{\left[\cfrac{1}{x}t^x(1-t)^{y-1}\right]_0^z+\int_0^{z}\cfrac{y-1}{x}t^x(1-t)^{y-2}dt\right\}\\&= \cfrac{(x+y-1)!}{x!(y-1)!}z^x(1-z)^{y-1} + \cfrac{(x+y-1)!}{x!(y-2)!}\int_0^{z}t^x(1-t)^{y-2}dt\\&= \begin{pmatrix}x+y-1\\x\end{pmatrix}z^x(1-z)^{y-1} + \cfrac{(x+y-1)!}{x!(y-2)!}\left\{\left[\cfrac{1}{x+1}t^{x+1}(1-t)^{y-2}\right]_0^{z}+ \int_0^{z}\cfrac{y-2}{x+1}t^{x+1}(1-t)^{y-3}dt\right\}\\&=\begin{pmatrix}x+y-1\\x\end{pmatrix}z^x(1-z)^{y-1} + \begin{pmatrix}x+y-1\\x+1\end{pmatrix}z^{x+1}(1-z)^{y-2}+ \cfrac{(x+y-1)!}{(x+1)!(y-3)!}\int_0^{z}t^{x+1}(1-t)^{y-3}dt\\&=\cdots\\&=\sum_{i=x}^{x+y-2}\begin{pmatrix}x+y-1\\i\end{pmatrix}z^{i}(1-z)^{x+y-1-i(1+i)} + \cfrac{(x+y-1)!}{(x+y-2)!}\left[\cfrac{1}{x+y-1}t^{x+y-1}\right]_0^z\\&=\sum_{i=x}^{x+y-2}\begin{pmatrix}x+y-1\\i\end{pmatrix}z^{i}(1-z)^{x+y-1-i} + \cfrac{(x+y-1)!}{(x+y-1)!0!}z^{x+y-1}(1-z)^0\\\label{eq3}&=\sum_{i=x}^{x+y-1}\begin{pmatrix}x+y-1\\i\end{pmatrix}z^{i}(1-z)^{x+y-1-i}.\tag{3}\end{align}

また、次の不完全ベータ関数の性質を用いる。

\begin{align}1-I(z; x,y) = I(1-z; y, x).\end{align}

上式より\eqref{eq3}は次のように表される。

\begin{align}1-I(z; x, y) &=I(1-z; y, x)\\&=\sum_{i=0}^{x-1}\begin{pmatrix}x+y-1\\i\end{pmatrix}z^{i}(1-z)^{x+y-1-i}\end{align}

よって、\(z = p\)、\(x = x + 1\)、\(y = n-x\)を代入することで\eqref{eq1}は次となる。

\begin{align}&\sum_{k=0}^x \begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}\\ &= I(1-p; n-x, x + 1).\end{align}

負の2項分布

確率変数\(X\)が負の2項分布に従うとき、\(0\leq p\leq1\)、\(r\in\{1,2,\ldots\}\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}\mathrm{Pr}\{X=k\}=\begin{pmatrix}k+r-1\\k\end{pmatrix}(1-p)^rp^k, k = 0, 1, 2, \ldots.\end{align}

2項分布に従う確率変数\(X\)の累積分布関数を導出する。\(X\)の累積分布関数\(F(x))\)は

\begin{align}F(x)&=\sum_{k=0}^{x}\begin{pmatrix}k+r-1\\k\end{pmatrix}(1-p)^rp^k\\\label{eq4}&= 1-\sum_{k=x+1}^{\infty}\begin{pmatrix}k+r-1\\k\end{pmatrix}(1-p)^rp^k\tag{4}\end{align}

で表さる。ここで\eqref{eq2}の不完全ベータ関数について次の関係を示す。

\begin{align}I(z; x,+1 y) &= I(z; x, y)-\cfrac{z^x(1-z)^y}{xB(x, y)}.\end{align}

上式の左辺を\(z\)について微分することで次を得る。

\begin{align}\cfrac{d}{dz}I(z, x+a, y) &= \cfrac{z^x(1-z)^{y-1}}{B(x+1, y)}\\&=\cfrac{z^x(1-z)^{y-1}}{B(x,y)x/(x+y)}\\&=(x+y)\cfrac{z^x(1-z)^{y-1}}{xB(x,y)}.\end{align}

また、次の関数\(g(x,y,z)\)を定義する。

\begin{align}g(x, y,z) = I(z; x+1, y)-I(z; x, y) +\cfrac{z^x(1-z)^{y}}{xB(x, y)}\end{align}

関数\(g(x,y,z)\)を\(z\)について微分すると

\begin{align}\cfrac{d}{dz}g(x, y ,z) &=(x+y)\cfrac{z^x(1-z)^{y-1}}{xB(x,y)} - \cfrac{z^{x-1}(1-z)^{y-1}}{B(x,y)} +\cfrac{xz^{x-1}(1-z)^{y}}{xB(x,y)} - \cfrac{yz^x(1-z)^{y-1}}{xB(x,y)} \\&= \cfrac{z^{x-1}(1-z)^{y-1}}{B(x,y)}\left(\cfrac{(x+y)z}{x}-1+(1-z)-\cfrac{yz}{x}\right) \\ &= 0\end{align}

を得る。また、\(f(x, y , 0) = 0\)が成り立つことから

\begin{align}& I(z; x+1, y)-I(z; x, y) +\cfrac{z^x(1-z)^{y}}{xB(x, y)} = 0\\&\Leftrightarrow I(z; x,+1 y) = I(z; x, y)-\cfrac{z^x(1-z)^y}{xB(x, y)}\end{align}

が示せた。よって、次の等式が成り立つ。

\begin{align} \label{eq5}(z; x, y) = I(z; x,+1 y) +\cfrac{z^x(1-z)^y}{xB(x, y)}.\tag{5}\end{align}

ここで、\eqref{eq4}の不完全ベータ関数の左辺について、次のように展開し、二項係数に関する無限級数で表すことができる。

\begin{align}I(z; x, y) &= I(z; x,+1 y)+\cfrac{z^x(1-z)^y}{xB(x, y)}\\ &=I(z; x+ 2, y) + \cfrac{z^{x+1}(1-z)^y}{(x+1)B(x+1, y)} + \cfrac{z^x(1-z)^y}{xB(x, y)}+\cfrac{z^x(1-z)^y}{xB(x, y)}\\&= \cdots\\&= \sum_{i = x}^{\infty}\cfrac{z^{i}(1-z)^y}{iB(i, y)}\\&=(1-z)^y\sum_{i=x}^{\infty}\cfrac{z^{i}}{iB(i, y)}\\&=(1-z)^y\sum_{i=x}^{\infty}\cfrac{(i+y-1)!}{i!(y-1)!}z^{i}\\\label{eq6}&= (1-z)^y\sum_{i=x}^{\infty}\begin{pmatrix}i+y-1\\i\end{pmatrix}z^{i}.\tag{6}\end{align}

次に\eqref{eq6}に、\(z = p\)、\(x=x+1\)、\(y= r\)を代入すると次を得る。

\begin{align}I(p; x+1, r) = (1-p)^r\sum_{k=x+1}^{\infty}\begin{pmatrix}k+r-1\\k\end{pmatrix}p^{k} \end{align}

したがって、\eqref{eq4}の累積分布関数は、次のように上式の不完全ベータ関数で表現できることがわかる。

\begin{align}F(x)&=1-\sum_{k=x+1}^{\infty}\begin{pmatrix}k+r-1\\k\end{pmatrix}(1-p)^rp^k\\&=(1-p)^r \sum_{k=0}^{x}\begin{pmatrix}k+r-1\\k\end{pmatrix}p^k\\&= 1-I(p; x+1, r)\\&= I(1-p; r, x+1).\end{align}

ポアソン分布

確率変数\(X\)がポアソン分布に従うとき、\(\lambda > 0\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}\mathrm{Pr}\{X=k\} = \cfrac{e^{-\lambda}\lambda^k}{k!}, \ \ \ \ k=0, 1, 2, \ldots\end{align}

ポアソン分布に従う確率変数\(X\)の累積分布関数を導出する。\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x) &= \sum_{k=0}^{x}\cfrac{e^{-\lambda}\lambda^k}{k!}\\&=e^{-\lambda}\sum_{k=0}^{x}\cfrac{\lambda^k}{k!}\end{align}

累積分布関数を導出するために、次の\(\mathrm{Re}\ a\)を満たす複素数\(a\)に対して定義される第2種の不完全ガンマ関数を用いる。

\begin{align}\Gamma(a, z) = \int_z^{\infty}t^{a-1}e^{-t}dt.\end{align}

この不完全ガンマ関数に対し、部分積分を行う。

\begin{align}& \int_z^{\infty}t^{a-1}e^{-t}dt\\&= \left[-t^{a-1} e^{-t}\right]_z^{\infty} + \int_z^{\infty} (a-1)t^{a-2} e^{-t}dt\\&= z^{a-1}e^{-z} +\left[-(a-1)t^{a-2} e^{-t}\right]_z^{\infty} +\int_z^{\infty} (a-1)(a-2)t^{a-3}e^{-t}dt\\&=z^{a-1}e^{-z}+ (a-1)z^{a-2} e^{-z}+\int_z^{\infty} (a-1)(a-2)t^{a-3}e^{-t}dt\\&= e^{-z}\sum_{i = a-2}^{a-1} \cfrac{(a-1)!}{i!}z^{a-1-i}+\int_z^{\infty}(a-1)(a-2)t^{a-3}e^{-t}dt\\&= \cdots\\&=e^{-z} \sum_{i=1}^{a-1} \cfrac{(a-1)!}{i!}z^{a-1-i}+\int_0^z (a-1)!e^{-t}dt\\&=e^{-z}\sum_{i=1}^{a-1} \cfrac{(a-1)!}{i!}z^{a-1-i}+(a-1)!\left[e^{-t}\right]_{z}^{\infty}\\&=e^{-z}\sum_{i=0}^{a-1} \cfrac{(a-1)!}{i!}z^{a-1-i} .\end{align}

ここで、\(z = \lambda\)、\(a = x + 1\)を代入すると次を得る。\eqref{eq5}は次となる。

\begin{align}e^{-\lambda}\sum_{k=0}^{x}\cfrac{\lambda^k}{k!} &= e^{-\lambda}\sum_{k=0}^{x}\cfrac{x!}{k!}\lambda^k \cfrac{1}{x!}\\&= \cfrac{\Gamma(x+ 1\lambda)}{x!}.\end{align}

幾何分布

確率変数\(X\)が幾何分布に従うとき、\(0\leq p\leq1\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}\mathrm{Pr}\{X=k\} = (1-p)^{k-1}p, \ \ \ \ k=1,2, \ldots\end{align}

幾何分布に従う確率変数\(X\)の累積分布関数を導出する。累積分布関数\(F(x)\)は次のように、等比級数の和で表現できる。

\begin{align}F(x) &= \sum_{k=1}^x (1-p)^{k-1}p\\&= \cfrac{p\bigl\{1-(1-p)^{x-1}\bigr\}}{1-(1-p)}\\&=1-(1-p)^{x-1}.\end{align}

超幾何分布

確率変数\(X\)が超幾何分布に従うとき、\(N\in\{0, 1, 2, \ldots\}\)、\(K\in\{0, 1, 2, \ldots, N\}\)、\(n\in\{0, 1, 2, \ldots, N\}\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}\mathrm{Pr}\{X=k\} = \cfrac{\begin{pmatrix}K\\k\end{pmatrix}\begin{pmatrix}N-K\\n-k\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}}, \ \ \ \ \max(0,n+K-N)\leq k \leq\min(K,n)\end{align}

超幾何分布に従う確率変数\(X\)の累積分布関数を導出する。累積分布関数\(F(x)\)は次で表現される。

\begin{align}F(x) &= \sum_{k=0}^x\cfrac{\begin{pmatrix}K\\k\end{pmatrix}\begin{pmatrix}N-K\\n-k\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}}\\&= \cfrac{1}{\begin{pmatrix}N\\n\end{pmatrix}}\sum_{k=0}^x\begin{pmatrix}K\\k\end{pmatrix}\begin{pmatrix}N-K\\n-k\end{pmatrix}.\end{align}

wikipediaで、一般化超幾何級数を用いた累積分布関数の表現が記載されているが、詳細な参考文献がなかったため、割愛する。