【統計学】標本平均の分布

母平均を推定する尺度として標本平均がある。

ここでは、標本平均を定義し、その期待値や分散を導出する。

また、標本平均に関連したものとして、中心極限定理も紹介する。

改訂版日本統計学会公式認定統計検定2級対応統計学基礎

統計学の基礎を学習したい方へ

¥2,420 （2022/06/08 18:12時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

改訂版日本統計学会公式認定統計検定3級対応データの分析

¥2,420 （2022/06/11 02:09時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

標本平均

定義１　標本平均

\(x_1, x_2, \ldots, x_n\)を独立同一な確率変数\(X_1, X_2, \ldots, X_n; i.i.d.\)の観測値とする。このとき、標本平均\(\bar{x}\)は次で与えられる。\begin{align}\bar{x} = \cfrac{1}{n}\sum_{i = 1}^n x_i.\end{align}

標本平均は独立同一な確率変数の観測値の和をその数で割ったもので定義される。確率変数\(X_1, X_2, \ldots, X_n\)の従う分布の母平均を推定する際に、標本平均がしばしば用いられる。

次に、標本平均の従う分布を考える。定義1では、標本平均を確率変数ではなく観測値で与えたが、次のように確率変数として考える。

\begin{align}\bar{X} = \cfrac{1}{n}\sum_{i=1}^n X_i\end{align}

上式から分かるように、標本平均の分布は\(n\)個の独立同一な確率変数の和の分布を\(n\)で割ったものであると解釈できる。つまり、\(X_1, X_2, \ldots, X_n\)の分布から\(\bar{X}\)を導出することができる。

標本平均の分布

標本平均の1次、2次モーメント

次に、標本平均\(\bar{X}\)の分布のモーメントや特性関数についてみていく。確率変数\(X_i,\ i = 1, \ldots, n\)は次の平均と分散をもつことを仮定する。

\begin{align}\mathrm{E}[X_i] = \mu, \ \ \mathrm{Var}[X_i] = \sigma^2.\end{align}

モーメントの定義より、\(\bar{X}\)の平均と分散はそれぞれ次で与えられる。

\begin{align}\mathrm{E}[\bar{X}] &= \mathrm{E}\left[\cfrac{1}{n}\sum_{i=1}^nX_i\right]\\&= \cfrac{1}{n}\sum_{i = 1}^n \mathrm{E}[X_i]\\ &= \cfrac{1}{n}n\mu \\\label{eq1} &= \mu ,\tag{1}\end{align}\begin{align} \mathrm{Var}[\bar{X}] &=\mathrm{Var}\left[\cfrac{1}{n}\sum_{i=1}^n X_i\right]\\&= \cfrac{1}{n^2}\sum_{i=1}^n\mathrm{Var}\left[ X_i\right]\\ &= \cfrac{1}{n^2}n\sigma^2 \\\label{eq2}&= \cfrac{1}{n}\sigma^2.\tag{2}\end{align}

\eqref{eq2}から、標本平均を用いて母集団分布を推定するとき、推定の精度は標本数\(n\)が大きくなるほど良くなることがいえる。これは、\(n\to \infty\)のとき\(\mathrm{Var}[\bar{X}] \to 0\)となることから明らかである。また、\eqref{eq1}の\(\mathrm{E}[\bar{X}] = \mu\)より、標本平均\(\bar{X}\)は平均\(\mu\)の不偏推定量であることがいえる。

標本平均の特性関数

次に、標本平均\(\bar{X}\)の特性関数について考える。独立同一な確率変数\(X_i,\ i = 1, 2, \ldots, n\)は次の特性関数をもつとする。

\begin{align}\phi_{X_i}(t) = \phi_X(t).\end{align}

特性関数の定義より、\(\bar{X}\)の特性関数は次のようにして導出できる。

\begin{align}\phi_{\bar{X}}(t) &= \phi_{\frac{1}{n}\sum_{i=1}^nX_i}(t)\\ &= \phi_{\sum_{i=1}^nX_i}(\tfrac{t}{n}) \\&= \prod_{i=1}^n \phi_{X_i}(\tfrac{t}{n})\\\label{eq3} &= \phi^n_X(\tfrac{t}{n}).\tag{3}\end{align}

このように、\(\bar{X}\)の特性関数は、\(X_1, X_2, \ldots, X_n\)の特性関数の積で表すことができる。特性関数については、連続分布の特性関数、離散分布の特性関数を参照されたい。

母集団分布が正規分布のとき

具体例として、\(X_1, X_2, \ldots, X_n; i.i.d. \sim N(\mu, \sigma^2) \)のときの\(\bar{X}\)のモーメント及び特性関数を考える。\eqref{eq3}に正規分布の特性関数を代入することで、次の\(\bar{X}\)の特性関数を得る。

\begin{align}\phi(\bar{X})(t) &=\left[e^{\mu i\frac{t}{n} - \frac{\sigma^2}{2}\left(\frac{t}{n}\right)^2}\right]^n\\ &=e^{n\mu i\frac{t}{n} - n\frac{\sigma^2}{2}\frac{t^2}{n^2}}\\ \label{eq4}&= e^{\mu it - \frac{\sigma^2/n}{2}t^2} \tag{4}\end{align}

補足として、正規分布の特性関数については、連続分布の特性関数で触れているのでこちらを参照されたい。\eqref{eq4}から、標本平均\(\bar{X}\sim N(\mu, \frac{\sigma^2}{n})\)でることがいえる。母集団が正規分布であるとき、\(\bar{X}\)は\eqref{eq1}と\eqref{eq2}と同様の分布をもつことが示された。

\(\bar{X}\)の分布を幾何学的に考える。\(n=1\)のときと\(n=100\)のときの\(\bar{X}\)の分布はそれぞれ、\(N(\mu, \sigma^2)\)、\(N(\mu, \frac{\sigma^2}{100})\)である。これら2つの分布は次の図となる。

以下、プロットに用いたソースコード（R）

&gt; curve(dnorm, -5, 5, col = "blue")
&gt; par(new = TRUE)
&gt; curve(dnorm(x, sd = 1 / 10), -5, 5, col = "red", xlab = "", ylab = "", yaxt = "n")
&gt; legend("topleft", legend = c("n=1", "n=100"),  col = c("blue", "red"), lty = c(1, 1))

> curve(dnorm, -5, 5, col = "blue")

> par(new = TRUE)

> curve(dnorm(x, sd = 1 / 10), -5, 5, col = "red", xlab = "", ylab = "", yaxt = "n")

> legend("topleft", legend = c("n=1", "n=100"), col = c("blue", "red"), lty = c(1, 1))

この図から、\(n\)が小さいほど分布のばらつきは大きくなり、\(n\)が大きいほどばらつきは小さくなることが分かる。したがって、\(n\)が大きくなるにつれて、標本平均を用いた母集団分布の平均の推定が良くなることがいえる。

中心極限定理

\(n\)個の確率変数\(X_1, X_2, \ldots, X_n;\ i.i.d.\)は、平均\(\mathrm{E}[X_k] =\mu\)、分散\(\mathrm{Var}[X_k] =\sigma^2\)をもつとする。\(n\to \infty\)のとき、確率変数\(Z= \sqrt{n}(\bar{X} - \mu)\)について、次がいえる。

\begin{align}Z= \sqrt{n}( \bar{X} - \mu) \sim N(0, \sigma),\quad n \to \infty, \end{align}

ここに\(\bar{X}= (1/n) \sum_{k=1}^n X_k\)。

この定理は、確率変数が正規性をもたなくても、\(Z=\sqrt{n}(\bar{X} - \mu) \)は\(n\)が大きくなるにつれて、標準正規分布に近づくことを意味する。証明については、次の記事を参照されたい。

: 【統計学】中心極限定理とその証明
確率論・統計学において重要な定理の一つである中心極限定理について解説する。単変量だけでなく、多変量の中心極限定理についても紹介しその証明を行う。中心極限定理この定理は、確率変数が正規性をもたなく ...
続きを見る

中心極限定理が重要である理由として、確率変数\(X_1,X_2, \ldots,X_n\)が従う分布が正規分布でなくても、正規近似が可能である点である。母集団の分布の形状が正規分布からかけ離れている分、標本数\(n\)を大きくする必要がある。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
【統計学】偏差積和の公式
偏差積和の公式とその導出について紹介する。偏差積和の公式や標本分散や標本共分散との関係についてみていく。偏差積和の公式次の2つの偏差積和に関する公式について解説する。 \begin{align} ...

: 統計学
【統計学】二項分布の正規近似　ド・モアブル=ラプラスの定理
二項分布の正規近似についての定理であるド・モアブル=ラプラスの定理を解説する。二項分布の確率質量関数をパラメータ\(n\)に関して近似することで、\(n\)が十分に大きいとき二項分布は正規分布に漸近 ...

: 統計学
【統計学】標本平均や標本分散　記述統計
標本平均や標本分散、標本標準偏差、標本標準誤差について解説する。標本平均と標本分散の定義を与え、実際にデータから標本平均や標本分散を計算する例を紹介する。標本中央値や四分位数、標本相関係数について ...

: 統計学
【統計学】正規分布の和の分布について
正規分布の和の分布について解説する。一般に独立な確率変数の和の分布が同じ分布に従うことは確率分布の再生性として知られており、様々な分布で成り立つ。その一方、独立でない分布の和の分布は同じ分布に従う ...

: 統計学
【統計学】重回帰分析・線形回帰　回帰係数の最小二乗推定量と検定
回帰分析のうちの1つである線形回帰を解説する。線形回帰（重回帰分析）のモデルを与え、回帰係数の最小二乗推定量の導出や回帰係数に関する検定統計量の導出を行っていく。 R言語での線形回帰の実行方法は以下 ...

R言語　rbindやcbindを使いやすくしてみた【自作関数】

【R言語】一般化線形モデル　関数glmの使いかた