連続分布の再生性【統計学】

2021年1月10日

確率分布族における再生性をみていく。

分布の再生性を定義し、様々な連続分布の再生性を示していく。

ある確率分布が再生性をもつとき、その分布に従う確率変数の和も同じ分布に従う。

そのため、モーメントの計算や分布の導出で非常に役に立つ。

確率分布の再生性

ある分布族を\(\mathbb{F}\)とする。

定義1　確率分布の再生性

任意の確率分布\(F_1,\ F_2 \in \mathbb{F}\)に対して、独立な2つの確率変数を\(X_1 \sim F_1\)、\(X_2\sim F_2\)とする。このとき\(X_1 + X_2\sim F\)、\(F\in \mathbb{F}\)を満たすとき、分布族\(\mathbb{F}\)は再生性を持つという。

独立な確率変数の和も同じ分布に従うときに、その分布は再生性を持つことが言える。再生性をもつ代表的な分布として、正規分布、ガンマ分布、カイ2乗分布、コーシー分布、二項分布、負の二項分布、ポアソン分布がある。連続分布である正規分布、ガンマ分布、カイ2乗分布、コーシー分布の再生性を次の様々な分布の再生性で示していく。離散分布については、離散分布の再生性を参照されたい。

様々な連続分布の再生性

2つの確率変数\(X_1, X_2\)は独立であり、同一の分布に従っていることを仮定する。

個の仮定の下で、次の様々な分布について再生性を証明していく。

正規分布

確率密度関数を用いた証明

正規分布に従う確率変数\(X_i; i.i.d. \sim N(\mu_i , \sigma_i^2) , i = 1, 2\)の再生性を示す。2つの確率変数の和\(X_1 + X_2\)の確率密度関数を求めることによって、再生性が成り立つか確かめる。

確率変数\(X_i, i = 1, 2\)は次の確率密度関数を持つ。

\begin{align}f_{X_i}(x_i)=\cfrac{1}{\sqrt{2\pi\sigma_i^2}}\exp\left\{-\cfrac{(x_i-\mu_i)^2}{2\sigma_i^2}\right\}, \ \ -\infty<x<\infty .\end{align}

\(X_1\)と\(X_2\)は独立である仮定より、\(X_1\)と\(X_2\)の同時分布は、2つの確率密度関数の積で書ける。

\begin{align}f_{X_1, X_2}(x_1, x_2)&=\cfrac{1}{\sqrt{2\pi\sigma_1^2}}\exp\left\{-\cfrac{(x_1-\mu_1)^2}{2\sigma_1^2}\right\}\cfrac{1}{\sqrt{2\pi\sigma_2^2}}\exp\left\{-\cfrac{(x_2-\mu_2)^2}{2\sigma_2^2}\right\}\\&=\cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{(x_1-\mu_1)^2}{2\sigma_1^2} -\cfrac{(x_2-\mu_2)^2}{2\sigma_2^2} \right\} .\end{align}

ここで次の変数変換を行う。

\begin{align}u&=x_1 + x_2\\v&=x_2\end{align}

この変換のヤコビアンは\(|\partial(x_1, x_2)/\partial(u, v)| = 1\)であることより、\(U=X_1+X_2\)と\(V=X_2\)の同時分布は次で表される。

\begin{align}f_{U,V}(u,v) &= \cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{(x_1-\mu_1)^2}{2\sigma_1^2} -\cfrac{(x_2-\mu_2)^2}{2\sigma_2^2} \right\} \mathrm{mod}\left|\cfrac{x_1, x_2}{\partial(u, v)}\right|\\ &= \cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{\bigl\{(u-v)-\mu_1\bigr\}^2}{2\sigma_1^2} -\cfrac{(v-\mu_2)^2}{2\sigma_2^2} \right\} \cdot 1 \\&= \cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{\sigma_2^2(u^2 - 2u\mu_1 +\mu_1^2) + \sigma_1^2\mu_2^2}{2\sigma_1^2\sigma_2^2} -\cfrac{(\sigma_1^2 + \sigma_2^2)v^2 -2\bigl\{\sigma_2^2(u - \mu_1) +\sigma_1^2 \mu_2\bigr\}v}{2\sigma_1^2\sigma_2^2} \right\} \\&= \cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{\sigma_2^2(u^2 - 2u\mu_1 +\mu_1^2) + \sigma_1^2\mu_2^2}{2\sigma_1^2\sigma_2^2}\right\}\\&\ \ \ \ \cdot \exp\left\{- \cfrac{\sigma_1^2+ \sigma_2^2}{2\sigma_1^2\sigma_2^2}\left[v - \cfrac{\sigma_2^2( u - \mu_1) + \sigma_1^2\mu_2}{\sigma_1^2+ \sigma_2^2}\right]^2 + \cfrac{\sigma_1^2 + \sigma_2^2}{2\sigma_1^2\sigma_2^2}\left[\cfrac{\sigma_2^2(u-\mu_1) + \sigma_1^2\mu_2}{2\sigma_1^2\sigma_2^2(\sigma_1^2 + \sigma_2^2)}\right]^2\right\} .\end{align}

よって、\(v\)の取りうる範囲で積分することで次の\(U= X_1 + X_2\)の周辺密度関数を得る。

\begin{align}f_U(u) &=\cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{\sigma_2^2(u^2 - 2u\mu_1 +\mu_1^2) + \sigma_1^2\mu_2^2}{2\sigma_1^2\sigma_2^2} + \cfrac{\sigma_1^2 + \sigma_2^2}{2\sigma_1^2\sigma_2^2}\left[\cfrac{\sigma_2^2(u-\mu_1) + \sigma_1^2\mu_2}{2\sigma_1^2\sigma_2^2(\sigma_1^2 + \sigma_2^2)}\right]^2\right\}\\&\ \ \ \ \cdot \int_{-\infty}^{\infty} \exp\left\{- \cfrac{\sigma_1^2+ \sigma_2^2}{2\sigma_1^2\sigma_2^2}\left[v - \cfrac{\sigma_2^2( u - \mu_1) + \sigma_1^2\mu_2}{\sigma_1^2+ \sigma_2^2}\right]^2 \right\}dv \\ &= \cfrac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\cfrac{\sigma_2^2(u^2 - 2u\mu_1 +\mu_1^2) + \sigma_1^2\mu_2^2}{2\sigma_1^2\sigma_2^2} + \left[\cfrac{\sigma_2^2(u-\mu_1) + \sigma_1^2\mu_2}{2\sigma_1^2\sigma_2^2(\sigma_1^2 + \sigma_2^2)}\right]^2\right\}\cfrac{\sqrt{2\pi} \sigma_1\sigma_2}{\sqrt{\sigma_1^2 + \sigma_2^2}} \\&= \cfrac{1}{\sqrt{2\pi\sigma_1^2 + \sigma_2^2 }}\exp\left\{-\cfrac{(u - \mu_1)^2 - 2(u-\mu_1)\mu_2 + \mu_2^2}{2(\sigma_1^2 + \sigma_2^2)} \right\} \\&= \cfrac{1}{\sqrt{2\pi\sigma_1^2 + \sigma_2^2 }}\exp\left\{-\cfrac{\bigl\{u - (\mu_1 + \mu_2)\bigr\}^2}{2(\sigma_1^2 + \sigma_2^2)} \right\} \end{align}

これは、平均\(\mu_1 + \mu_2\)、分散\(\sigma_1^2 + \sigma_2^2\)の正規分布の確率密度関数である。よって、\(X_i, i.i.d. \sim N(\mu_i , \sigma_i^2), i = 1,2\)のとき、\(X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)\)が成り立つので、正規分布は再生性を持つことが示された。

特性関数を用いた証明

特性関数を用いた証明も紹介する。特性関数については、連続分布の特性関数を参照されたい。確率変数\(X_1\)と\(X_2\)の特性関数はそれぞれ

\begin{align}\phi_{X_1}(t) &= e^{i\mu_1 t-\frac{1}{2}\sigma_1^2t^2},\\\phi_{X_2}(t) &= e^{i\mu_2 t-\frac{1}{2}\sigma_2^2t^2}\end{align}

である。また、特性関数の定義より\(U=X_1 + X_2\)の特性関数は次で書ける。

\begin{align}\phi_U(t) &= \mathrm{E}[e^{itU}]\\&= \mathrm{E}[e^{it(X_1 + X_2)}]\\&= \mathrm{E}[e^{itX_1}]\mathrm{E}[e^{itX_2}]\\&= e^{i\mu_1 t-\frac{1}{2}\sigma_1^2t^2}e^{i\mu_2 t-\frac{1}{2}\sigma_2^2t^2}\\&=e^{i(\mu_1+\mu_2)t-\frac{1}{2}(\sigma_1^2+\sigma_2^2)t^2}. \end{align}

これは、平均\(\mu_1 +\mu_2\)、分散\(\sigma_1^2+ \sigma_2^2\)の正規分布の特性関数である。したがって、\(X_1 + X_2\sim N(\mu_1 + \mu_2, \sigma_1^2+\sigma_2^2)\)であり、正規分布の再生性が示された。

ガンマ分布

確率密度関数を用いた証明

ガンマ分布に従う確率変数\(X_i; i.i.d. \sim Gamma(k_i , \theta) , i = 1, 2\)の再生性を示す。

確率変数\(X_i, i=1,2\)は次の確率密度関数を持つ。

\begin{align}f_{X_i}(x_i) = \left\{\begin{array}{cc}\cfrac{1}{\Gamma(k_i)\theta^{k_i}}x^{k_i-1}e^{-\frac{x_i}{\theta}}, & x\geq 0, \\0,&x <0.\end{array}\right.\end{align}

畳み込みにより、\(U=X_1 + X_2\)の確率密度関数は次で表される。

\begin{align}\label{eq4}f_U(u) = \int_{0}^{\infty} f_{X_1}(v)f_{X_2}(u-v)dv\tag{4}\end{align}

上式の畳み込み積分により、\(U = X_1 + X_2\)の確率密度関数は

\begin{align}f_U(u) &= \int_{0}^{\infty} \cfrac{1}{\Gamma(k_1)\theta^{k_1}}(u-v)^{k_1-1}e^{-\frac{1}{\theta}(u-v)} \cfrac{1}{\Gamma(k_2)\theta^{k_2}}v^{k_2-1}e^{-\frac{v}{\theta}}dv\\& = \cfrac{1}{\Gamma(k_1)\Gamma(k_2)\theta^{k_1+k_2}}e^{-\frac{u}{\theta}} \int_0^{\infty}(u-v)^{k_1-1} v^{k_2-1}dv\\ &= \cfrac{1}{\Gamma(k_1)\Gamma(k_2)\theta^{k_1+k_2}}e^{-\frac{u}{\theta}} \int_0^{\infty}u^{k_1+k_2-2}\left(\cfrac{v}{u}\right)^{k_2-1}\left(1-\cfrac{v}{u}\right)^{k_1-1} dv \\&= \cfrac{1}{\Gamma(k_1)\Gamma(k_2)\theta^{k_1+k_2}}u^{k_1+k_2-2}e^{-\frac{u}{\theta}} \int_0^1w^{k_2-1}\left(1-w\right)^{k_1-1} udw\\&= \cfrac{1}{\Gamma(k_1)\Gamma(k_2)\theta^{k_1+k_2}}u^{k_1+k_2-1}e^{-\frac{u}{\theta}} B(k_2, k_1)\\&= \cfrac{1}{\Gamma(k_1)\Gamma(k_2)\theta^{k_1+k_2}}u^{k_1+k_2-1}e^{-\frac{u}{\theta}} \cfrac{\Gamma(k_2)\Gamma(k_1)}{\Gamma(k_2+ k_1)}\\&= \cfrac{1}{\Gamma(k_1+k_2)\theta^{k_1+k_2}}u^{k_1+k_2-1}e^{-\frac{u}{\theta}}\end{align}

である。これはパラメータ\(k_1+k_2\)、\(\theta\)のガンマ分布の確率密度関数である。よって、\(X_i, i.i.d. \sim Gamma(k_i , \theta), i = 1,2\)のとき、\(X_1 + X_2 \sim Gamma(k_1 + k_2, \theta\)が成り立つので、ガンマ分布は再生性を持つことが示された。

特性関数を用いた証明

特性関数を用いた証明を行う。確率変数\(X_1\)と\(X_2\)はそれぞれ次の特性関数を持つ。

\begin{align}\phi_{X_1}(t) &=(1-i\theta t)^{-k_1},\\ \phi_{X_2}(t) &= (1-i\theta t)^{-k_2}.\end{align}

また、\(U= X_1 + X_2\)の特性関数は

\begin{align}\phi_U(t) &= \mathrm{E}[e^{itU}]\\&= \mathrm{E}[e^{itX_1}]\mathrm{E}[e^{itX_2}]\\&=(1-i\theta t)^{-k_1}(1-i\theta t)^{-k_2}\\&= (1-i\theta t)^{-(k_1 + k_2)}\end{align}

であり、これはパラメータ\(k_1 + k_2\)、\(\theta\)のガンマ分布の特性関数である。よって、\(X_1 + X_2 \sim Gamma(k_1 + k_2, \theta\)が成り立つので、ガンマ分布は再生性を持つことが示された。

カイ二乗分布

確率密度関数を用いた証明

カイ2乗分布に従う確率変数\(X_1 \sim \chi_m^2 ,X_2\sim \chi_n^2\)の再生性を示す。

確率変数\(X_1\)と\(X_2\)は次の確率密度関数を持つ。

\begin{align}f_{X_1}(x_1) &= \left\{\begin{array}{cc}\cfrac{x_1^{\frac{m}{2}-1}e^{-\frac{x_1}{2}}}{2^{\frac{m}{2}}\Gamma(\frac{m}{2})},& x\geq 0,\\0,&x<0.\end{array}\right.,\\f_{X_2}(x_2) &= \left\{\begin{array}{cc}\cfrac{x_2^{\frac{n}{2}-1}e^{-\frac{x_2}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})},& x\geq 0,\\0,&x<0.\end{array}\right..\end{align}

\eqref{eq4}より、\(U= X_1+ X_2\)の確率密度関数は次のように求めることができる。

\begin{align}f_U(u) &= \int_{0}^{\infty} \cfrac{(u-v)^{\frac{m}{2}-1}e^{-\frac{1}{2}(u-v)}}{2^{\frac{m}{2}}\Gamma(\frac{m}{2})}\cfrac{v^{\frac{n}{2}-1}e^{-\frac{v}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} dv\\ &= \int_{0}^{\infty}\cfrac{1}{2^{\frac{1}{2}(m+n)}\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} e^{-\frac{1}{2}u} \int_0^{\infty}v^{\frac{n}{2}-1} (u-v)^{\frac{m}{2}-1} dv\\ &= \cfrac{1}{2^{\frac{1}{2}(m+n)}\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} u^{\frac{1}{2}(m+n)-2}e^{-\frac{1}{2}u} \int_0^{\infty}\left(\cfrac{v}{u}\right)^{\frac{n}{2}-1} \left(1-\cfrac{v}{u}\right)^{\frac{m}{2}-1} dv\\&=\cfrac{1}{2^{\frac{1}{2}(m+n)}\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} u^{\frac{1}{2}(m+n)-2}e^{-\frac{1}{2}u} \int_0^{1}w^{\frac{n}{2}-1} \left(1-w\right)^{\frac{m}{2}-1} udw \\&=\cfrac{1}{2^{\frac{1}{2}(m+n)}\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} u^{\frac{1}{2}(m+n)-1}e^{-\frac{1}{2}u} B(\tfrac{n}{2}, \tfrac{m}{2})\\&= \cfrac{1}{2^{\frac{1}{2}(m+n)}\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} u^{\frac{1}{2}(m+n)-1}e^{-\frac{1}{2}u} \cfrac{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}{\Gamma\bigl[\frac{1}{2}(n+m)\bigr]}\\&= \cfrac{1}{2^{\frac{1}{2}(m+n)}\Gamma\bigl[\frac{1}{2}(m+n)\bigr] } u^{\frac{1}{2}(m+n)-1}e^{-\frac{1}{2}u} .\end{align}

これは自由度\(m+n\)のカイ2乗分布の確率密度関数である。よって、\(X_1 \sim \chi_m^2 ,X_2\sim \chi_n^2\)のとき、\(X_1 + X_2 \sim \chi_{m+n}^2\)が成り立つので、カイ2乗分布は再生性を持つことが示された。

特性関数を用いた証明

特性関数を用いた証明を行う。確率変数\(X_1\)と\(X_2\)はそれぞれ次の特性関数を持つ。

\begin{align}\phi_{X_1}(t) &=(1-2i t)^{-\frac{1}{2}m},\\ \phi_{X_2}(t) &= (1-2i t)^{-\frac{1}{2}n}.\end{align}

また、\(U= X_1 + X_2\)の特性関数は

\begin{align}\phi_U(t) &= \mathrm{E}[e^{itU}]\\&= \mathrm{E}[e^{itX_1}]\mathrm{E}[e^{itX_2}]\\&=(1-2i t)^{-\frac{1}{2}m}(1-2i t)^{-\frac{1}{2}n} \\&= (1-2i t)^{-\frac{1}{2}(m+n)}\end{align}

であり、これは自由度\(m+n\)のカイ2乗分布の特性関数である。したがって、\(X_1 + X_2 \sim \chi_{m+n}^2\)であり、カイ2乗分布の再生性が示された。

コーシー分布

コーシー分布の再生性を示す。簡便のため標準コーシー分布の再生性を示す。

確率変数\(X_1\)と\(X_2\)は標準コーシー分布に従うとき、次の確率密度関数を持つ。

\begin{align}f_{X_j}(x_j) =\cfrac{1}{\pi(1 + x_j^2)},\ \ -\infty< x_i<\infty, \ \ j = 1,2.\end{align}

\(U=X_1+X_2\)の確率密度関数は、デルタ関数を用いることで次のように表現できる。

\begin{align}f_U(u) &= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\delta(u-x_1-x_2)f_{X_1}(x_1)f_{X_2}(x_2)dx_1d_2\\&= \cfrac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} e^{ik(u-x_1-x_2)} \cfrac{1}{\pi(1 + x_1^2)} \cfrac{1}{\pi(1 + x_2^2)}dx_1dx_2dk\\&= \cfrac{1}{2\pi^{3}}\int_{-\infty}^{\infty}e^{iku}\prod_{j=1}^2\left[\int_{-\infty}^{\infty} \cfrac{e^{-ikx_j}}{1 + x_j^2}dx_j\right]dk\\&= \cfrac{1}{\pi^{3}}\int_{-\infty}^{\infty}e^{iku}\left[\int_{-\infty}^{\infty} \cfrac{e^{-ikx}}{1 + x^2}dx\right]^2dk\end{align}

2行目の等式では、ディラックのデルタ関数がフーリエ変換により次で表されることを用いている。

\begin{align}\delta(x) = \cfrac{1}{2\pi}\int_{-\infty}^{\infty}e^{ikx}dk.\end{align}

ここで、複素数の留数定理を用いると次の積分を得る。

\begin{align}\int_{-\infty}^{\infty}\cfrac{e^{-ikx}}{1+x^2}dx &= \int_{-\infty}^{\infty}\cfrac{e^{-ikx}}{(x+i)(x-i)}dx\\&=\left\{\begin{array}{cc}\pi e^{-k}, & k\geq 0,\\ \pi e^{k}, & k < 0.\end{array}\right. .\end{align}よって\begin{align}&\cfrac{1}{2\pi^{3}}\int_{0}^{\infty}e^{iku}\left\{\pi e^{-k} \right\}^2dk +\cfrac{1}{2\pi^3}\int_{-\infty}^0 e^{iku}\left\{\pi e^{k} \right\}^2dx\\&= \cfrac{1}{2\pi}\left[\int_{0}^{\infty}e^{(iu-2)k}dx + \int_{-\infty}^0e^{iu(+2)k}dk\right]\\&=\cfrac{1}{2\pi}\left[-\cfrac{1}{iu -2}+\cfrac{1}{iu+2}\right]\\&=\cfrac{2}{\pi(u^2 + 2^2)}\end{align}

これは、位置母数\(0\)、尺度母数\(2\)のコーシー分布の確率密度関数である。したがって、コージー分布は再生性を持つことが示された。