母分散の推定量である標本分散と不偏標本分散について解説する。
標本分散と不偏標本分散の性質やなぜ母分散の推定量として不偏推定量が用いられているのか見ていく。
不偏推定量については次の記事を参照。
【統計学】不偏推定量 推定量の不偏性
点推定において重要な推定量である不偏推定量について解説する。 不偏推定量やバイアスの定義を与えて、標本平均や不偏標本分散などの推定量の不偏性を確かめる。 また、標本分散が不偏推定量ではないことも説明す ...
続きを見る
標本分散と不偏標本分散
標本分散と不偏標本分散を紹介する。
標本分散と不偏標本分散の定義はそれぞれ以下の通り。
標本分散
標本\(x_1, x_2, \dots, x_n\)に対して、標本分散は次で定義される。
ここに\(\bar{x}\)は次で与えられる標本平均。
不偏標本分散
標本\(x_1, x_2, \dots, x_n\)に対して、不偏標本分散は次で定義される。
ここに\(\bar{x}\)は次で与えられる標本平均。
標本分散は偏差平方和を標本数で割ったもので定義され、不偏標本分散は標本数-1で割ったもので定義される。
標本分散と不偏標本分散の違いとして、次のように標本分散の期待値は母分散とは一致しないが、不偏標本分散の期待値は母分散と一致し不偏性を持つことが知られている。
ここに\(S^2\)と\(U^2\)はそれぞれ標本分散\(s^2\)と不偏標本分散\(u^2\)の確率変数である。
シミュレーション
なぜ標本分散ではなく不偏標本分散を母分散の推定量として用いるのか、シミュレーションを用いて説明する。
次のグラフは、平均0、分散1の正規分布から乱数を発生させたときの標本分散と不偏標本分散の精度を示している。
標本数に関して次で定義される2つの推定量のバイアスと平均二乗誤差を計算している。なお、シミュレーション回数は10000回である(\(t = 10000\))。
ここに\(\hat{\sigma}_k\)は\(k\)回目のシミュレーションの際の母分散の推定値である。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 | set.seed(1) sampleSizes <- c(10, 20, 30, 40, 50) times <- 10000 sigma <- 1 bias_s_squared <- NULL bias_u_squared <- NULL MSE_s_squared <- NULL MSE_u_squared <- NULL for(n in sampleSizes) { s_squared <- NULL u_squared <- NULL for(t in seq_len(times)) { x <- rnorm(n, sd = sqrt(sigma)) u_squared <- append(u_squared, var(x)) s_squared <- append(s_squared, ((n - 1) / n) * var(x)) } bias_s_squared <- append(bias_s_squared, mean(s_squared) - sigma) bias_u_squared <- append(bias_u_squared, mean(u_squared) - sigma) MSE_s_squared <- append(MSE_s_squared, mean((s_squared - sigma)^2)) MSE_u_squared <- append(MSE_u_squared, mean((u_squared - sigma)^2)) } bias <- c(bias_s_squared, bias_u_squared) MSE <- c(MSE_s_squared, MSE_u_squared) plot(sampleSizes, abs(bias_s_squared), ylim = c(min(abs(bias)), max(abs(bias))), xlab = "Sample size", ylab = "Absolute value of Bias", type = "o", col = 2) par(new = TRUE) plot(sampleSizes, abs(bias_u_squared), ylim = c(min(abs(bias)), max(abs(bias))), type = "o", col = 4 , xlab = "", ylab = "", xaxt = "n", yaxt = "n") legend(x = "topright", legend = c("sample variance", "unbiased sample variance"), col = c(2, 4), lty = c(1, 1), pch = c(1, 1)) plot(sampleSizes, MSE_s_squared, ylim = c(min(MSE), max(MSE)), xlab = "Sample size", ylab = "MSE", type = "o", col = 2) par(new = TRUE) plot(sampleSizes, MSE_u_squared, ylim = c(min(MSE), max(MSE)), type = "o", col = 4, xlab = "", ylab = "", xaxt = "n", yaxt = "n") legend(x = "topright", legend = c("sample variance", "unbiased sample variance"), col = c(2, 4), lty = c(1, 1), pch = c(1, 1)) |
標本数が大きくなると、標本分散と不偏標本分散のどちらもバイアスと平均二乗誤差が減少する傾向があるのがわかる。
2つの推定量のバイアスを比較すると、標本にかかわらず不偏標本分散のバイアスのほうが小さいことがいえる。
一方、平均二乗誤差に関しては不偏標本分散のほうが僅かに大きいことがわかる。
推定量の期待値が推定したいパラメータに等しい性質から分かるように、パラメータとのバイアスが小さくなるよう推定したい場合、不偏推定量を用いるべきであることがいえる。