母平均を推定する尺度として標本平均がある。
ここでは、標本平均を定義し、その期待値や分散を導出する。
また、標本平均に関連したものとして、中心極限定理も紹介する。
標本平均
定義1 標本平均
\(x_1, x_2, \ldots, x_n\)を独立同一な確率変数\(X_1, X_2, \ldots, X_n; i.i.d.\)の観測値とする。このとき、標本平均\(\bar{x}\)は次で与えられる。\begin{align}\bar{x} = \cfrac{1}{n}\sum_{i = 1}^n x_i.\end{align}
標本平均は独立同一な確率変数の観測値の和をその数で割ったもので定義される。確率変数\(X_1, X_2, \ldots, X_n\)の従う分布の母平均を推定する際に、標本平均がしばしば用いられる。
次に、標本平均の従う分布を考える。定義1では、標本平均を確率変数ではなく観測値で与えたが、次のように確率変数として考える。
上式から分かるように、標本平均の分布は\(n\)個の独立同一な確率変数の和の分布を\(n\)で割ったものであると解釈できる。つまり、\(X_1, X_2, \ldots, X_n\)の分布から\(\bar{X}\)を導出することができる。
標本平均の分布
標本平均の1次、2次モーメント
次に、標本平均\(\bar{X}\)の分布のモーメントや特性関数についてみていく。確率変数\(X_i,\ i = 1, \ldots, n\)は次の平均と分散をもつことを仮定する。
モーメントの定義より、\(\bar{X}\)の平均と分散はそれぞれ次で与えられる。
\eqref{eq2}から、標本平均を用いて母集団分布を推定するとき、推定の精度は標本数\(n\)が大きくなるほど良くなることがいえる。これは、\(n\to \infty\)のとき\(\mathrm{Var}[\bar{X}] \to 0\)となることから明らかである。また、\eqref{eq1}の\(\mathrm{E}[\bar{X}] = \mu\)より、標本平均\(\bar{X}\)は平均\(\mu\)の不偏推定量であることがいえる。
標本平均の特性関数
次に、標本平均\(\bar{X}\)の特性関数について考える。独立同一な確率変数\(X_i,\ i = 1, 2, \ldots, n\)は次の特性関数をもつとする。
特性関数の定義より、\(\bar{X}\)の特性関数は次のようにして導出できる。
このように、\(\bar{X}\)の特性関数は、\(X_1, X_2, \ldots, X_n\)の特性関数の積で表すことができる。特性関数については、連続分布の特性関数、離散分布の特性関数を参照されたい。
母集団分布が正規分布のとき
具体例として、\(X_1, X_2, \ldots, X_n; i.i.d. \sim N(\mu, \sigma^2) \)のときの\(\bar{X}\)のモーメント及び特性関数を考える。\eqref{eq3}に正規分布の特性関数を代入することで、次の\(\bar{X}\)の特性関数を得る。
補足として、正規分布の特性関数については、連続分布の特性関数で触れているのでこちらを参照されたい。\eqref{eq4}から、標本平均\(\bar{X}\sim N(\mu, \frac{\sigma^2}{n})\)でることがいえる。母集団が正規分布であるとき、\(\bar{X}\)は\eqref{eq1}と\eqref{eq2}と同様の分布をもつことが示された。
\(\bar{X}\)の分布を幾何学的に考える。\(n=1\)のときと\(n=100\)のときの\(\bar{X}\)の分布はそれぞれ、\(N(\mu, \sigma^2)\)、\(N(\mu, \frac{\sigma^2}{100})\)である。これら2つの分布は次の図となる。
以下、プロットに用いたソースコード(R)
1 2 3 4 | > curve(dnorm, -5, 5, col = "blue") > par(new = TRUE) > curve(dnorm(x, sd = 1 / 10), -5, 5, col = "red", xlab = "", ylab = "", yaxt = "n") > legend("topleft", legend = c("n=1", "n=100"), col = c("blue", "red"), lty = c(1, 1)) |
この図から、\(n\)が小さいほど分布のばらつきは大きくなり、\(n\)が大きいほどばらつきは小さくなることが分かる。したがって、\(n\)が大きくなるにつれて、標本平均を用いた母集団分布の平均の推定が良くなることがいえる。
中心極限定理
中心極限定理
\(n\)個の確率変数\(X_1, X_2, \ldots, X_n;\ i.i.d.\)は、平均\(\mathrm{E}[X_k] =\mu\)、分散\(\mathrm{Var}[X_k] =\sigma^2\)をもつとする。\(n\to \infty\)のとき、確率変数\(Z= \sqrt{n}(\bar{X} - \mu)\)について、次がいえる。
ここに\(\bar{X}= (1/n) \sum_{k=1}^n X_k\)。
この定理は、確率変数が正規性をもたなくても、\(Z=\sqrt{n}(\bar{X} - \mu) \)は\(n\)が大きくなるにつれて、標準正規分布に近づくことを意味する。証明については、次の記事を参照されたい。
【統計学】中心極限定理とその証明
確率論・統計学において重要な定理の一つである中心極限定理について解説する。 単変量だけでなく、多変量の中心極限定理についても紹介しその証明を行う。 中心極限定理 この定理は、確率変数が正規性をもたなく ...
続きを見る
中心極限定理が重要である理由として、確率変数\(X_1,X_2, \ldots,X_n\)が従う分布が正規分布でなくても、正規近似が可能である点である。母集団の分布の形状が正規分布からかけ離れている分、標本数\(n\)を大きくする必要がある。