【統計学】標本中央値の分布

標本中央値の分布を導出する。

統計学で重要な位置パラメータの1つである標本中央値の確率密度関数と分布関数を導出する。

また標本中央値は順序統計量の特殊な場合であり、順序統計量の確率密度関数と分布関数から、容易に標本中央値の確率密度関数と分布関数が得られることも示す。

順序統計量については順序統計量を参照されたい。

統計学入門 (基礎統計学Ⅰ)

統計学の入門書におすすめ！

¥3,080 （2022/06/27 19:34時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

日本統計学会公式認定統計検定 2級公式問題集[2018〜2021年]

¥1,980 （2022/06/27 19:37時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

確率変数\(X_1, \ldots, X_n\)は独立に同一の分布に従っているとする。このとき、標本中央値は順序統計量を用いてることで次のように表すことができる。

\begin{align}X_{(m)} =\left\{\begin{array}{cc} \cfrac{1}{2}\{X_{(n/2)}+ X_{(n/2+1)}\}, & n=2mのとき（nが偶数のとき）\\X_{((n+1)/2)}, & n=2m+1のとき（ nが奇数のとき）.\end{array}\right.\end{align}

\(n\)が奇数のとき標本中央値の分布

まず、\(n\)が奇数のときを考える。

中央値の確率密度関数と分布関数（\(n\)が奇数）

確率変数\(X_1, \ldots, X_n\)はそれぞれ独立に同一の分布に従い、確率密度関数\(f_X(x)\)と分布関数\(F_X(x)\)をもつとする。このとき標本中央値\(X_{(m)}=X_{((n+1)/2)}\)の確率密度関数と分布関数はそれぞれ次で与えられる。
\begin{align}f_{X_{(m)}}(x)&= \cfrac{1}{B\bigl[(n+1)/2 , (n+1)/2\bigr]}F_{X}(x)^{(n-1)/2}\bigl\{1- F_X(x)\bigr\}^{(n-1)/2}f_X(x),\\ F_{X_{(m)}}(x)&= \sum_{i=(n+1)/2}^n\begin{pmatrix}n\\i\end{pmatrix}F_{X}^i(x)\bigl\{1- F_X(x)\bigr\}^{n-i}.\end{align}

証明　順序統計量の分布の定理1より、順序統計量\(X_{(k)},\ k = 1,\ldots ,n\)の確率密度関数と分布関数は、それぞれ次で与えられる。

\begin{align}\label{eq1}f_{X_{(k)}}(x)&=\cfrac{n!}{(k-1)!(n-k)!}F_{X}(x)^{k-1}\bigl\{1- F_X(x)\bigr\}^{n-k}f_X(x) \tag{1}\\ F_{X_{(k)}}(x)\label{eq2}&= \sum_{i=k}^n\begin{pmatrix}n\\i\end{pmatrix}F_{X}^i(x)\bigl\{1- F_X(x)\bigr\}^{n-i}\tag{2}\end{align}

よって、\eqref{eq1}と\eqref{eq2}に\(k=(n+1)/2\)を代入することで、中央値の確率密度関数と分布関数が得られる。中央値の確率密度関数\(f_{X_{(m)}}(x)\)と\(F_{X_{(m)}}(x)\)はそれぞれ次で与えられる。

\begin{align}f_{X_{(m)}}(x)&=\cfrac{n!}{((n+1)/2-1)!(n-(n+1)/2)!}F_{X}(x)^{(n+1)/2-1}\bigl\{1- F_X(x)\bigr\}^{n-(n+1)/2}f_X(x)\\&= \cfrac{n!}{\bigl\{(n-1)/2\bigr\}!\bigl\{(n-1)/2\bigr\}!}F_{X}(x)^{(n-1)/2}\bigl\{1- F_X(x)\bigr\}^{(n-1)/2}f_X(x)\\&= \cfrac{1}{B\bigl[(n+1)/2 , (n+1)/2\bigr]}F_{X}(x)^{(n-1)/2}\bigl\{1- F_X(x)\bigr\}^{(n-1)/2}f_X(x),\\ F_{X_{(m)}}(x)&= \sum_{i=(n+1)/2}^n\begin{pmatrix}n\\i\end{pmatrix}F_{X}^i(x)\bigl\{1- F_X(x)\bigr\}^{n-i}.□\end{align}

\(n\)が偶数のとき標本中央値の分布

次に\(n\)が偶数の時を考える。

中央値の確率密度関数（\(n\)が偶数）

確率変数\(X_1, \ldots, X_n\)はそれぞれ独立に同一の分布に従い、確率密度関数\(f_X(x)\)と分布関数\(F_X(x)\)をもつとする。このとき標本中央値\(X_{(m)}=(X_{(n/2)}+X_{(n/2+1)})/2\)の確率密度関は次で与えられる。
\begin{align}f_{X_{(m)}}(x) &= \cfrac{2n}{B(n/2, n/2)}\int_0^{\infty}f_X(x-h)f_X(x+h)F_X^{k-1}(x-h)\bigl\{1-F_X(x+h)\bigr\}^{k-1}dh.\end{align}

証明　\(n\)が偶数のとき、中央値\(X_{(m)}\)は次のように2つの順序統計量の和で表される。

\begin{align}X_{(m)} = \cfrac{1}{2}\{X_{(n/2)}+ X_{(n/2+1)}\}.\end{align}

中央値\(x_{(m)}\)と\(h\geq 0\)に対して、\(x_{(i)} = x_{(m)} - h\)と\(x_{j} = x_{(m)} + h\)を満たす標本\(x_{i}\)と\(x_{j}\)と\(x_{i}\)以下の\(n/2-1\)個の標本と\(x_{j}\)以上の\(n/2-1\)個の標本が存在する。\(X_{i}\)が区間\([x-h, x-h+\Delta x]\)に含まれ、\(n/2-1\)個の確率変数が\(x_{i}\)以下となる確率は

\begin{align}\lim_{\Delta x\to 0}\mathrm{Pr}\{x-h\leq X\leq x-h+\Delta x\}\bigl[\mathrm{Pr}\{X \leq x-h\}\bigr]^{k-1} = f_X(x-h)F_X^{k-1}(x-h)dx.\end{align}

同様に\(X_{j}\)についても、\(X_{j}\)が区間\([x+h, x+h+\Delta x]\)に含まれ、\(n/2-1\)個の確率変数が\(x_{j}\)以上となる確率は

\begin{align}\lim_{\Delta x\to0}\mathrm{Pr}\{x+h \leq X \leq x+h+\Delta x\}\bigl[\mathrm{Pr}\{X \geq x+h + \Delta x\}\bigr]^{k-1} = f_X(x+h)\bigl\{1- F_X(x+h)\bigr\}^{k-1}\end{align}

で表される。

\(x_{(i)} = x_{(m)} - h,\ x_{j} = x_{(m)} + h\Leftrightarrow x_{(m)} = (x_{i}+x_{j})/2\)

であることから、\(X_{i}\)と\(X_{j}\)がそれぞれ上記の区間に含まれ、\(x_{i}\)以下となる確率変数と\(x_{j}\)以上となる確率変数がそれぞれ\(n/2-1\)個存在するときの確率が、\(X_{(m)}\)が\(x, x+dx]\)に含まれる確率となる。よって\(X_{(m)}\)が\([x, x+dx]\)に含まれる確率は

\begin{align}I=\int_0^{\infty}f_X(x-h)f_X(x+h)F_X^{k-1}(x-h)\bigl\{1-F_X(x+h)\bigr\}^{k-1}dhdx\end{align}

である。また、これらの標本が取りうる組み合わせを計算することで、中央値\(X_{m}\)が\([x, x+dx]\)に含まれる確率は次となる。

\begin{align}\mathrm{Pr}\{x\leq m x+dx\} &= 2\cfrac{n!}{(n/2-1)!(n/2-1)!}Idx\\&= \cfrac{2n}{B(n/2, n/2)}Idx.\end{align}

確率密度関数は\(dx\)の係数となるので、中央値\(X_{(m)}\)の確率密度関数は次で与えられる。

\begin{align}f_{X_{(m)}}(x) &= \cfrac{2n}{B(n/2, n/2)}\int_0^{\infty}f_X(x-h)f_X(x+h)F_X^{k-1}(x-h)\bigl\{1-F_X(x+h)\bigr\}^{k-1}dh.□\end{align}