【統計学】連続分布の累積分布関数

連続分布の累積分布関数の定義を与え、様々な連続分布の累積分布関数を導出する。

累積分布関数は、特定の分布に従う確率変数がある区間に含まれる確率を計算する際に利用される。特に検定論では、第1種の過誤\(\alpha\)を計算する際に用いられる。確率論や統計学で重要な役割を果たす累積分布関数についてみていく。

累積分布関数の定義（連続分布）

定義１　累積分布関数

確率密度関数\(f(x)\)をもつ確率変数\(X\)の累積分布関数は次で定義される。\begin{align}F(x) = \int_{-\infty}^x f(t)dt\tag{1}\end{align}

累積分布関数は、確率変数\(X\)の確率密度関数\(f(x)\)を\(-\infty\)から\(x\)の積分で定義される。すなわち「連続分布の累積分布関数は確率変数\(X\)が\(x\)以下となる確率である」ことを意味する。

累積分布関数の性質

連続分布の累積分布関数\(F(x)\)は次の性質を満たす。\begin{align}\lim_{x\to -\infty}F(x) = 0,\ \ \lim_{x\to\infty}F(x) = 1.\end{align}これは確率密度関数の定義から明らかである。

また次のように、分布関数を用いることで、\(a\)と\(b\)を定数とし、確率変数\(X\)が区間\([a, b]\)に含まれる確率を求めることができる。\begin{align}\int_{a}^bf(x)dx &= \int_{-\infty}^bf(x)dx- \int_{-\infty}^af(x) dx\\&= F(b)-F(a).\end{align}

連続分布の累積分布関数

連続一様分布

確率変数\(X\)が連続一様分布に従うとき、\(a<b\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}f(x) = \left\{\begin{array}{cc}\cfrac{1}{b-a}, & a\leq x\leq b,\\0, & otherwise\end{array}\right.\end{align}

連続一様分布に従う確率変数の累積分布関数を導出する。累積分布関数の定義より、\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x) &= \int_{a}^x \cfrac{1}{b-1}dt\\&= \cfrac{1}{b-a}[t]_a^x\\&=\cfrac{1}{b-a}(x-a)\\&=\cfrac{x-a}{b-a}\end{align}

である。

正規分布

確率変数\(X\)が正規分布に従うとき、実数\(\mu\)、\(\sigma^2>0\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}f(x)=\cfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\cfrac{(x-\mu)^2}{2\sigma^2}\right\}, \ \ -\infty<x<\infty .\end{align}

正規分布に従う確率変数の累積分布関数を導出する。累積分布関数の定義より、\(X\)の累積分布関数\(F(x)\)は次で与えられる。

\begin{align}F(x)&= \int_{-\infty}^x \cfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\cfrac{(t-\mu)^2}{2\sigma^2}\right\}dt \\\label{eq2}&=\cfrac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^x\exp\left\{-\cfrac{(t-\mu)^2}{2\sigma^2}\right\}dt. \tag{2} \end{align}

また、\(s = (t-\mu)/\sigma\)の変換を行うことで、\eqref{eq2}は次となる。\begin{align}&\cfrac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^x\exp\left\{-\cfrac{(t-\mu)^2}{2\sigma^2}\right\}dt\\ &= \cfrac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\frac{x-\mu}{\sigma}}\exp\left(-\cfrac{s^2}{2}\right)\sigma ds\\&= \cfrac{1}{\sqrt{2\pi}} \int_{-\infty}^{\frac{x-\mu}{\sigma}}\exp\left(-\cfrac{s^2}{2}\right)ds \end{align}

ここで、次で定義される誤差関数\(\mathrm{erf(\cdot)}\)を用いる。\begin{align}\mathrm{erf}(x) = \cfrac{2}{\sqrt{\pi}}\int_{0}^x e^{-t^2}dt.\end{align}よって、誤差関数を用いることで\eqref{eq2}は次のように表される。\begin{align}&\cfrac{1}{\sqrt{2\pi}} \int_{-\infty}^{\frac{x-\mu}{\sigma}}\exp\left(-\cfrac{s^2}{2}\right)ds\\&=\int_{-\infty}^{0}\cfrac{1}{\sqrt{2\pi}}\exp\left(-\cfrac{s^2}{2}\right)ds + \cfrac{1}{\sqrt{2\pi}} \int_{0}^{\frac{x-\mu}{\sigma}}\exp\left(-\cfrac{s^2}{2}\right)ds \\ &= \cfrac{1}{2} + \cfrac{1}{\sqrt{2\pi}} \int_{0}^{\frac{x-\mu}{\sigma}}e^{-u^2}\sqrt{2}du\\&=\cfrac{1}{2} + \cfrac{1}{\sqrt{\pi}} \int_{0}^{\frac{x-\mu}{\sigma\sqrt{2}}}e^{-u^2}2du\\ &= \cfrac{1}{2}\left[1 + \mathrm{erf}\left(\cfrac{x-\mu}{\sigma\sqrt{2}}\right)\right].\end{align}

ガンマ分布

確率変数\(X\)がガンマ分布に従うとき、実数\(k > 0\)、\(\theta>0\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}f(x) = \left\{\begin{array}{cc}\cfrac{1}{\Gamma(k)\theta^{k}}x^{k-1}e^{-\frac{x}{\theta}}, & x\geq 0, \\0,&x <0.\end{array}\right.\end{align}

ガンマ分布に従う確率変数の累積分布関数を導出する。\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x) &= \int_{0}^{x} \cfrac{1}{\Gamma(k)\theta^{k}}t^{k-1}e^{-\frac{t}{\theta}}dt\\\label{eq3}&= \cfrac{1}{\Gamma(k)\theta^{k}}\int_{0}^{x} t^{k-1}e^{-\frac{1}{\theta}t}dt\tag{3}\end{align}

となる。ここで次の定義される\(0\)以上の実数\(x\)と\(\mathrm{Re}, b>0\)を満たす複素数\(b\)に対する第1種の不完全ガンマ関数を導入する。

\begin{align}\gamma(b, x) = \int_0^{x} t^{b-1}e^{-t}dt\end{align}

次にある複素数\(a\)を用い、この不完全ガンマ関数に、\(t = au\)の変換を行うと、\(\mathrm{Re}\ b>0\)を満たす複素数\(b\)に対し、次の関係を得る。

\begin{align} \gamma(b, x) &= \int_0^{x} t^{b-1}e^{-t}dt \\&= \int_0^{x}(au)^{b-1}e^{-au}adu \\\label{eq4}&= a^{b}\int_0^{x} u^{b-1}e^{-au}du\tag{4}\end{align}

したがって、\eqref{eq3}は次で表される。

\begin{align}&\cfrac{1}{\Gamma(k)\theta^{k}}\int_{0}^{x} t^{k-1}e^{-\frac{1}{\theta}t}dt\\&=\cfrac{1}{\Gamma(k)\theta^{k}}\gamma(k, x)(\theta^{-k})^{-1}\\&=\cfrac{\gamma(k, x) }{\Gamma(k)}. \end{align}

指数分布

確率変数\(X\)がガンマ分布に従うとき、\(\lambda>0\)に対して、\(X\)の確率関数は次で与えられる。

\begin{align}f(x) = \left\{\begin{array}{cc}\lambda e^{-\lambda x}, & x\geq 0,\\0,&x <0.\end{array}\right.\end{align}

指数分布に従う確率変数の累積分布関数を導出する。ガンマ分布の場合と同様に、\eqref{eq4}の不完全ガンマ関数を用いることで、\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x)&=\int_0^{x}\lambda e^{-\lambda t}dt\\&=\lambda\int_0^{x}e^{-\lambda t}dt\\&=\cfrac{\gamma(1, x)}{\lambda}.\end{align}

である。

カイ2乗分布

確率変数\(X\)がカイ2乗分布に従うとき、\(k\in\{1,2,\ldots\}\)に対して、\(X\)の確率密度関数は次で与えられる。

\begin{align}f(x) = \left\{\begin{array}{cc}\cfrac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{k}{2}}\Gamma(\frac{k}{2})},& x\geq 0,\\0,&x<0.\end{array}\right.\end{align}

カイ2乗分布に従う確率変数の累積分布関数を導出する。\(X\)の累積分布関数\(F(x)\)は、\eqref{eq4}を用いることで

\begin{align}F(x) &= \int_{0}^{x}\cfrac{t^{\frac{k}{2}-1}e^{-\frac{t}{2}}}{2^{\frac{k}{2}}\Gamma(\frac{k}{2})}dt\\&=\cfrac{1}{2^{\frac{k}{2}}\Gamma(\frac{k}{2})}\int_{0}^{x}t^{\frac{k}{2}-1}e^{-\frac{1}{2}t}dt\\&=\cfrac{1}{2^{\frac{k}{2}}\Gamma(\frac{k}{2})} \gamma(\tfrac{k}{2}, x)(\cfrac{1}{2})^{-\frac{k}{2}}\\&=\cfrac{ \gamma(\tfrac{k}{2}, x)}{\Gamma(\frac{k}{2})}\end{align}

である。

ベータ分布

確率変数\(X\)がベータ分布に従うとき、実数\(\alpha >0\)と\(\beta>0\)に対して、\(X\)の確率密度関数は次で与えられる。

\begin{align}f(x)=\left\{\begin{array}{cc}\cfrac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)},& 0\leq x \leq 1,\\0,&otherwise.\end{array}\right.\end{align}

ベータ分布に従う確率変数の累積分布関数を導出する。\(X\)の累積分布関数\(F(x)\)は

\begin{align}F(x)&=\int_{0}^{x}\cfrac{t^{\alpha-1}(1-t)^{\beta-1}}{B(\alpha, \beta)}dt\\\label{eq5}&=\cfrac{1}{B(\alpha, \beta)}\int_0^{x}t^{\alpha-1}(1-t)^{\beta-1}dt\tag{5}\end{align}

となる。ここで\(\mathrm{Re}, x>0\)、\(\mathrm{Re}, y>0\)を満たす複素数\(x\)、\(y\)と\(0\leq \mathrm{Re}\ z\leq1\)を満たす複素数\(z\)に対して、次で定義される不完全ベータ関数を用いる。\begin{align}B(z; x, y) \label{eq6}&= \int_0^z t^{x-1}(1-t)^{y-1}dt.\tag{6}\end{align}故に、\eqref{eq5}は次となる。\begin{align}&\cfrac{1}{B(\alpha, \beta)}\int_0^{x}t^{\alpha-1}(1-t)^{\beta-1}dt\\&=\cfrac{B(x; \alpha, \beta)}{B(\alpha, \beta)}\\&= I(x; \alpha, \beta), \end{align}ここに関数\(I\)は次で定義される正規化された不完全ベータ関数である。\begin{align}I(z; x, y) = \cfrac{B(z; x, y)}{B(x, y)}.\end{align}

t分布

確率変数\(X\)がt分布に従うとき、実数\(\nu >0\)に対して、\(X\)の確率密度関数は次で与えられる。

\begin{align}f(x) = \cfrac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}\left(1+\cfrac{x^2}{\nu}\right)^{-\frac{\nu+1}{2}},\ \ -\infty<x<\infty.\end{align}

t分布に従う確率変数の累積分布関数を導出する。t分布の対称性より、\(x\)の符号関数を用いることで、\(X\)の累積分布関数\(F(x)\)は次で表現される。

\begin{align}F(x) &= \int_{-\infty}^x \cfrac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}\left(1+\cfrac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}dt\\ \label{eq7} &= \cfrac{1}{2} + \cfrac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}\int_{0}^x\left(1+\cfrac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}dt\cdot\mathrm{sgn}(x). \tag{7}\end{align}

ここで\(0\leq x<\infty\)において、\(u=(1+t^2/\nu)^{-1}\)の変換を考える。\(t= \{\nu(u^{-1}-1)\}^{\frac{1}{2}}\)であることから

\begin{align}&\cfrac{dt}{du} =-\cfrac{1}{2}\nu u^{-2}\{\nu(u^{-1}-1)\}^{-\frac{1}{2}}\\ &\Leftrightarrow\cfrac{dt}{du} =-\cfrac{1}{2}\nu^{\frac{1}{2}}u^{-2}\left(\cfrac{1-u}{u}\right)^{-\frac{1}{2}}\end{align}

である。よって、\eqref{eq7}は次で表される。

\begin{align}&\cfrac{1}{2} + \cfrac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}\int_{0}^x\left(1+\cfrac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}dt\cdot\mathrm{sgn}(x)\\&=\cfrac{1}{2}+\cfrac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}\int_{1}^{\left(1+\frac{x^2}{\nu}\right)^{-1}}u^{\frac{\nu+1}{2}}\left\{-\cfrac{1}{2}\nu^{\frac{1}{2}}u^{-2}\left(\cfrac{1-u}{u}\right)^{-\frac{1}{2}}\right\}du\cdot \mathrm{sgn}(x)\\&=\cfrac{1}{2} + \cfrac{\Gamma(\frac{\nu+1}{2})}{2\sqrt{\pi}\Gamma(\frac{\nu}{2})}\int_{\left(1+\frac{x^2}{\nu}\right)^{-1}}^1u^{\frac{\nu}{2}-1}(1-u)^{-\frac{1}{2}}du \cdot\mathrm{sgn}(x).\end{align}

さらに\eqref{eq6}の不完全ベータ関数を用いると、上の式は次となる。

\begin{align}&\cfrac{1}{2} + \cfrac{\Gamma(\frac{\nu+1}{2})}{2\sqrt{\pi}\Gamma(\frac{\nu}{2})}\int_{\left(1+\frac{x^2}{\nu}\right)^{-1}}^1u^{\frac{\nu}{2}-1}(1-u)^{-\frac{1}{2}}du\cdot\mathrm{sgn}(x) \\&= \cfrac{1}{2} + \cfrac{1}{2B(\tfrac{\nu}{2}, \tfrac{1}{2})} \left[B(\tfrac{\nu}{2}, \tfrac{1}{2}) - B(\tfrac{\nu}{\nu+x^2}; \tfrac{\nu}{2}, \tfrac{1}{2})\right]\mathrm{sgn}(x)\\&= \cfrac{1}{2} + \cfrac{1}{2} \left[I(1; \tfrac{\nu}{2}, \tfrac{1}{2}) - I(\tfrac{\nu}{\nu + x^2}, \tfrac{\nu}{2}, \tfrac{1}{2})\right]\mathrm{sgn}(x).\end{align}

F分布

確率変数\(X\)がF分布に従うとき、実数\(m >0\)と\(n>0\)に対して、\(X\)の確率密度関数は次で与えられる。

\begin{align}\label{eq12}f(x) =\left\{\begin{array}{cc}\cfrac{m^{\frac{1}{2}m}n^{\frac{1}{2}n} x^{\frac{1}{2}m-1}}{B(\frac{1}{2}m,\frac{1}{2}n)(n+mx)^{\frac{1}{2}(m+n)}}, & x\geq 0\ \ (if\ m=1,\ x>0),\\0,&otherwise.\end{array}\right.\tag{12}\end{align}

F分布に従う確率変数の累積分布関数を導出する。累積分布関数\(F(x)\)は次の積分で表現される。

\begin{align}F(x) &= \int_{0}^x\cfrac{m^{\frac{1}{2}m}n^{\frac{1}{2}n} t^{\frac{1}{2}m-1}}{B(\frac{1}{2}m,\frac{1}{2}n)(n+mt)^{\frac{1}{2}(m+n)}} dt\\&= \cfrac{m/n}{B(\frac{1}{2}m, \frac{1}{2}n)} \int_{0}^x\left(\cfrac{m}{n}t\right)^{\frac{1}{2}m-1}\left(1+\cfrac{m}{n}t\right)^{-\frac{1}{2}(m+n)} dt.\end{align}

ここで、\((m/n)t = u\)の変換を行うと、上式は次となる。

\begin{align}& \cfrac{m/n}{B(\frac{1}{2}m, \frac{1}{2}n)} \int_{0}^x\left(\cfrac{m}{n}t\right)^{\frac{1}{2}m-1}\left(1+\cfrac{m}{n}t\right)^{-\frac{1}{2}(m+n)} dt\\&= \cfrac{m/n}{B(\frac{1}{2}m, \frac{1}{2}n)} \int_{0}^{\frac{m}{n}x} u^{\frac{1}{2}m-1}(1+u)^{-\frac{1}{2}(m+n)} \cfrac{n}{m}du\\\label{eq8}&=\cfrac{1}{B(\frac{1}{2}m, \frac{1}{2}n)} \int_{0}^{\frac{m}{n}x} u^{\frac{1}{2}m-1}(1+u)^{-\frac{1}{2}(m+n)} du.\tag{8}\end{align}

\eqref{eq6}の不完全ベータ関数に\(t=u/(1+u)\)の変換を行うと次を得る。

\begin{align} \int_0^z t^{x-1}(1-t)^{y-1}dt&=\int_{0}^{\frac{z}{1+z}} \left(\cfrac{u}{1+u}\right)^{x-1} \left(\cfrac{1}{1+u}\right)^{y-1} \left(\cfrac{1}{1+u}\right)^2du\\&= \int_0^{\frac{z}{1+z}}u^{x-1}(1+u)^{-(x+y)}du.\end{align}

したがって、

\((m/n)x = z/(1+z)\Leftrightarrow z = (m/n)x/\{1-(m/n)x\}\)

より、\eqref{eq8}の累積分布関数は次で表される。

\begin{align}&\cfrac{1}{B(\frac{1}{2}m, \frac{1}{2}n)} \int_{0}^{\frac{m}{n}x} u^{\frac{1}{2}m}(1+u)^{-\frac{1}{2}(m+n)} du \\&= \cfrac{1}{B(\frac{1}{2}m, \frac{1}{2}n)} B(\tfrac{\frac{m}{n}x}{1-\frac{m}{n}x}; \tfrac{1}{2}m, \tfrac{1}{2}n)\\&= I(\tfrac{\frac{m}{n}x}{1-\frac{m}{n}x}; \tfrac{1}{2}m, \tfrac{1}{2}n).\end{align}