【統計学】標本中央値の分布

標本中央値の分布を導出する。

統計学で重要な位置パラメータの1つである標本中央値の確率密度関数と分布関数を導出する。

また標本中央値は順序統計量の特殊な場合であり、順序統計量の確率密度関数と分布関数から、容易に標本中央値の確率密度関数と分布関数が得られることも示す。

順序統計量については順序統計量を参照されたい。

統計学入門 (基礎統計学Ⅰ)

統計学の入門書におすすめ！

¥3,080 （2022/06/27 19:34時点 | Amazon調べ）

Amazon

＼楽天ポイント5倍セール！／

楽天市場

Yahooショッピング

ポチップ

日本統計学会公式認定統計検定 2級公式問題集[2018〜2021年]

¥1,980 （2022/06/27 19:37時点 | Amazon調べ）

Amazon

＼楽天ポイント5倍セール！／

楽天市場

Yahooショッピング

ポチップ

確率変数\(X_1, \ldots, X_n\)は独立に同一の分布に従っているとする。このとき、標本中央値は順序統計量を用いてることで次のように表すことができる。

\begin{align}X_{(m)} =\left\{\begin{array}{cc} \cfrac{1}{2}\{X_{(n/2)}+ X_{(n/2+1)}\}, & n=2mのとき（nが偶数のとき）\\X_{((n+1)/2)}, & n=2m+1のとき（ nが奇数のとき）.\end{array}\right.\end{align}

\(n\)が奇数のとき標本中央値の分布

まず、\(n\)が奇数のときを考える。

中央値の確率密度関数と分布関数（\(n\)が奇数）

確率変数\(X_1, \ldots, X_n\)はそれぞれ独立に同一の分布に従い、確率密度関数\(f_X(x)\)と分布関数\(F_X(x)\)をもつとする。このとき標本中央値\(X_{(m)}=X_{((n+1)/2)}\)の確率密度関数と分布関数はそれぞれ次で与えられる。
\begin{align}f_{X_{(m)}}(x)&= \cfrac{1}{B\bigl[(n+1)/2 , (n+1)/2\bigr]}F_{X}(x)^{(n-1)/2}\bigl\{1- F_X(x)\bigr\}^{(n-1)/2}f_X(x),\\ F_{X_{(m)}}(x)&= \sum_{i=(n+1)/2}^n\begin{pmatrix}n\\i\end{pmatrix}F_{X}^i(x)\bigl\{1- F_X(x)\bigr\}^{n-i}.\end{align}

証明　順序統計量の分布の定理1より、順序統計量\(X_{(k)},\ k = 1,\ldots ,n\)の確率密度関数と分布関数は、それぞれ次で与えられる。

\begin{align}\label{eq1}f_{X_{(k)}}(x)&=\cfrac{n!}{(k-1)!(n-k)!}F_{X}(x)^{k-1}\bigl\{1- F_X(x)\bigr\}^{n-k}f_X(x) \tag{1}\\ F_{X_{(k)}}(x)\label{eq2}&= \sum_{i=k}^n\begin{pmatrix}n\\i\end{pmatrix}F_{X}^i(x)\bigl\{1- F_X(x)\bigr\}^{n-i}\tag{2}\end{align}

よって、\eqref{eq1}と\eqref{eq2}に\(k=(n+1)/2\)を代入することで、中央値の確率密度関数と分布関数が得られる。中央値の確率密度関数\(f_{X_{(m)}}(x)\)と\(F_{X_{(m)}}(x)\)はそれぞれ次で与えられる。

\begin{align}f_{X_{(m)}}(x)&=\cfrac{n!}{((n+1)/2-1)!(n-(n+1)/2)!}F_{X}(x)^{(n+1)/2-1}\bigl\{1- F_X(x)\bigr\}^{n-(n+1)/2}f_X(x)\\&= \cfrac{n!}{\bigl\{(n-1)/2\bigr\}!\bigl\{(n-1)/2\bigr\}!}F_{X}(x)^{(n-1)/2}\bigl\{1- F_X(x)\bigr\}^{(n-1)/2}f_X(x)\\&= \cfrac{1}{B\bigl[(n+1)/2 , (n+1)/2\bigr]}F_{X}(x)^{(n-1)/2}\bigl\{1- F_X(x)\bigr\}^{(n-1)/2}f_X(x),\\ F_{X_{(m)}}(x)&= \sum_{i=(n+1)/2}^n\begin{pmatrix}n\\i\end{pmatrix}F_{X}^i(x)\bigl\{1- F_X(x)\bigr\}^{n-i}.□\end{align}

\(n\)が偶数のとき標本中央値の分布

次に\(n\)が偶数の時を考える。

中央値の確率密度関数（\(n\)が偶数）

確率変数\(X_1, \ldots, X_n\)はそれぞれ独立に同一の分布に従い、確率密度関数\(f_X(x)\)と分布関数\(F_X(x)\)をもつとする。このとき標本中央値\(X_{(m)}=(X_{(n/2)}+X_{(n/2+1)})/2\)の確率密度関は次で与えられる。
\begin{align}f_{X_{(m)}}(x) &= \cfrac{2n}{B(n/2, n/2)}\int_0^{\infty}f_X(x-h)f_X(x+h)F_X^{k-1}(x-h)\bigl\{1-F_X(x+h)\bigr\}^{k-1}dh.\end{align}

証明　\(n\)が偶数のとき、中央値\(X_{(m)}\)は次のように2つの順序統計量の和で表される。

\begin{align}X_{(m)} = \cfrac{1}{2}\{X_{(n/2)}+ X_{(n/2+1)}\}.\end{align}

中央値\(x_{(m)}\)と\(h\geq 0\)に対して、\(x_{(i)} = x_{(m)} - h\)と\(x_{j} = x_{(m)} + h\)を満たす標本\(x_{i}\)と\(x_{j}\)と\(x_{i}\)以下の\(n/2-1\)個の標本と\(x_{j}\)以上の\(n/2-1\)個の標本が存在する。\(X_{i}\)が区間\([x-h, x-h+\Delta x]\)に含まれ、\(n/2-1\)個の確率変数が\(x_{i}\)以下となる確率は

\begin{align}\lim_{\Delta x\to 0}\mathrm{Pr}\{x-h\leq X\leq x-h+\Delta x\}\bigl[\mathrm{Pr}\{X \leq x-h\}\bigr]^{k-1} = f_X(x-h)F_X^{k-1}(x-h)dx.\end{align}

同様に\(X_{j}\)についても、\(X_{j}\)が区間\([x+h, x+h+\Delta x]\)に含まれ、\(n/2-1\)個の確率変数が\(x_{j}\)以上となる確率は

\begin{align}\lim_{\Delta x\to0}\mathrm{Pr}\{x+h \leq X \leq x+h+\Delta x\}\bigl[\mathrm{Pr}\{X \geq x+h + \Delta x\}\bigr]^{k-1} = f_X(x+h)\bigl\{1- F_X(x+h)\bigr\}^{k-1}\end{align}

で表される。

\(x_{(i)} = x_{(m)} - h,\ x_{j} = x_{(m)} + h\Leftrightarrow x_{(m)} = (x_{i}+x_{j})/2\)

であることから、\(X_{i}\)と\(X_{j}\)がそれぞれ上記の区間に含まれ、\(x_{i}\)以下となる確率変数と\(x_{j}\)以上となる確率変数がそれぞれ\(n/2-1\)個存在するときの確率が、\(X_{(m)}\)が\(x, x+dx]\)に含まれる確率となる。よって\(X_{(m)}\)が\([x, x+dx]\)に含まれる確率は

\begin{align}I=\int_0^{\infty}f_X(x-h)f_X(x+h)F_X^{k-1}(x-h)\bigl\{1-F_X(x+h)\bigr\}^{k-1}dhdx\end{align}

である。また、これらの標本が取りうる組み合わせを計算することで、中央値\(X_{m}\)が\([x, x+dx]\)に含まれる確率は次となる。

\begin{align}\mathrm{Pr}\{x\leq m x+dx\} &= 2\cfrac{n!}{(n/2-1)!(n/2-1)!}Idx\\&= \cfrac{2n}{B(n/2, n/2)}Idx.\end{align}

確率密度関数は\(dx\)の係数となるので、中央値\(X_{(m)}\)の確率密度関数は次で与えられる。

\begin{align}f_{X_{(m)}}(x) &= \cfrac{2n}{B(n/2, n/2)}\int_0^{\infty}f_X(x-h)f_X(x+h)F_X^{k-1}(x-h)\bigl\{1-F_X(x+h)\bigr\}^{k-1}dh.□\end{align}

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
【統計学】確率分布の無記憶性
確率分布の重要な性質である無記憶性について解説する。無記憶性の定義を紹介し、幾何分布と指数分布についてこの性質が成り立つことを示す。無記憶性定義１　離散確率分布の無記憶性集合\(\{0, 1, ...

: 統計学
【統計学】カイ2乗分布の確率密度関数
正規分布の確率密度関数からカイ2乗分布の確率密度関数を導出する。標準正規分布の2乗の統計量が自由度1のカイ2乗分布に従うことを示していく。また、一般化として自由度\(n\)のカイ2乗分布の確率密度 ...

: 統計学
【統計学】離散分布の再生性　
前回の連続分布の再生性に続いて、様々な離散分布の再生性を示す。確率分布の再生性の定義については、連続分布の再生性を参照されたい。代表的な離散分布である二項分布や負の二項分布、ポアソン分布の再生性を ...

: 統計学
【統計学】二項分布の確率質量関数　
二項分布の確率質量関数について解説する。二項分布の確率質量関数の定義を与え、解釈の仕方や二項分布の例についてを紹介する。また、ベルヌーイ分布との関係についても触れる。二項分布の期待値と分散や分布 ...

: 統計学
【統計学】相関係数・ピアソンの積率相関係数
相関係数とピアソンの積率相関係数について解説する。相関係数およびピアソンの積率相関係数の定義を与え、その性質や幾何学的解釈などをみていく。相関係数の検定については以下の記事を参照されたい。相関係 ...

楕円分布　線形結合の分布と周辺分布

楕円型分布の条件付き分布と重相関係数