統計学

【統計学】平均値・中央値・最頻値 ヒストグラム 記述統計

  1. HOME >
  2. 統計学 >

【統計学】平均値・中央値・最頻値 ヒストグラム 記述統計

スポンサーリンク

データの位置母数である平均値、中央値、最頻値に解説する。

データの分布の形状によって平均値、中央値、最頻値がどのように変化するのか、また平均値、中央値、最頻値のうちどれを代表値として用いればよいのか、ヒストグラムを用いてみていく。

平均値や分散、中央値については以下の記事を参照。

【統計学】標本平均や標本分散 記述統計

標本平均や標本分散、標本標準偏差、標本標準誤差について解説する。 標本平均と標本分散の定義を与え、実際にデータから標本平均や標本分散を計算する例を紹介する。 標本中央値や四分位数、標本相関係数について ...

続きを見る

平均値・中央値・最頻値

\(n\)個のデータ\(x_1, x_2, \ldots, x_{n}\)の平均値、中央値、最頻値の定義を以下にまとめる。

平均値は、次のように全データの相加平均のことをいう。

平均値

平均値は次で与えられる。

\begin{align}\bar{x} = \cfrac{1}{n} \sum_{i=1}^n x_i.\end{align}

中央値は、データを小さい方から順に並べたときの真ん中の値を指す。

中央値

\(x_1, x_2, \ldots, x_{n}\)を小さい方から順に並べたものを\(x_{(1)}, x_{(2)}, \ldots,x_{(n)}\)とする。このとき\(x_1, x_2, \ldots, x_{n}\)の中央値は\begin{align} \mathrm{median} = \left\{ \begin{array}{cc} x_{((n + 1 )/ 2)} &, \mathrm{if}\ n\ \mathrm{is\ odd}, \\ \cfrac{x_{(n / 2)} + x_{(n / 2+ 1)}}{2} & , \mathrm{if}\ n\ \mathrm{is\ even} \end{array} \right. .\end{align}

データの総数\(n\)が奇数であるか偶数であるかによって、中央値が変わることに注意が必要。

最頻値

最頻値は、データの中で最も頻度(個数)が多い値をいう。

平均値は外れ値に影響されやすい一方、中央値と最頻値はされにくいという特徴をもつ。

経験的に平均値、中央値、最頻値の順で外れ値に影響されやすいことが分かっている。

これら3つの代表をどのように使い分ければよいのかこのあとみていく。

計算例とヒストグラムの関係

平均値・中央値・最頻値とヒストグラム

次の30個のデータ\(x_1, x_2, \ldots, x_{30}\)が得られたとする。

\begin{align} &\begin{array}{c|ccccccccccccccc} i& 1& 2&3 & 4& 5& 6&  7 & 8 & 9 & 10& 11 & 12& 13& 14& 15  \\\hline  x_i & 6& 19 & 16& 9& 12& 17 & 10&  10& 0& 10& 10& 4& 10& 6& 13 \end{array} \\ &\begin{array}{c|ccccccccccccccc} i & 16 & 17& 18& 19 & 20 & 21& 22 & 23 & 24 & 25 & 26 & 27 & 28& 29 & 30 \\\hline x_i & 10&  9& 12& 5& 8& 12& 6& 12& 6& 10& 13& 3& 13& 15& 9  \end{array}\end{align}

このデータに対するヒストグラムは次のようになる。

xのヒストグラム

このデータを小さい方から順に\(x_{(1)}, x_{(2)}, \ldots, x_{(30)}\)とし、並べると次のようになる。

\begin{align} &\begin{array}{c|ccccccccccccccc} i & 1 & 2 & 3 & 4 & 5 & 6 & 7 &8 & 9 & 10& 11& 12& 13& 14& 15\\\hline x_{(i)} & 0 & 3 & 4  &5 &6 &6 &6 &6 &8 &9 &9 &9 &10 & 10& 10 \\\hline\end{array} \\ & \begin{array}{c|ccccccccccccccc} i& 16 & 17& 18& 19& 20& 21& 22& 23& 24& 25& 26& 27& 28& 29& 30 \\\hline x_{(i)} &10& 10& 10& 10& 12& 12& 12& 12& 13& 13& 13& 15& 16& 17& 19 \end{array} \end{align}

また、このデータの度数は次の通り。

\begin{align}\begin{array}{c|ccccc} 値 & 0& 3& 4& 5& 6& 8& 9& 10& 12& 13& 15& 16& 17& 19 \\\hline 度数& 1 &1 &1 &1 &4 &1 &3 &7 &4 &3 &1 &1 &1 &1  \end{array}\end{align}

故にこのデータの平均値、中央値、最頻値はそれぞれ

\begin{align}\bar{x} &= \cfrac{1}{30} \sum_{i=1}^{30} x_i \\ &= \cfrac{1}{30}(6 +19 +16+  9+ 12+ 17+ 10+ 10+ 0+ 10+ 10 +4 +10+ 6+ 13 \\ &\qquad\ \ \ +10+ 9+ 12+ 5+ 8+ 12+ 6 +12  +6 +10+ 13+ 3+ 13+ 15+ 9) \\ &= \cfrac{295}{30} = \cfrac{59}{6} \approx 9.8333 ,\\ \mathrm{median} &=\cfrac{x_{(30 / 2)} + x_{(30 / 2+ 1)}}{2} \\ &= \cfrac{x_{(15) + x_{(16)}}}{2} \\ &= \cfrac{10 + 10}{2} = 10,\\ \mathrm{mode} &= 10.\end{align}

これら3つの代表値をヒストグラムに対応させると次のようになる。

xのヒストグラムと代表値

データの分布がほぼ左右対称であることから、平均値、中央値、最頻値の3つの代表値がほぼ一致していることが分かる。

平均値・中央値・最頻値が一致しない例

次に、平均値、中央値、最頻値が一致しないようなデータの例を紹介する。

次の30個のデータ\(y_1, y_2, \ldots, y_{30}\)が得られたとする。

\begin{align} &\begin{array}{c|ccccccccccccccc} i & 1 & 2& 3 &4 &5 &6 &7 &8 & 9 &10 & 11& 12 & 13& 14& 15 \\\hline y_i &12& 15& 35& 10 &23& 7& 5& 11& 9& 9& 10& 10& 9& 9& 8 \end{array} \\ &\begin{array}{c|ccccccccccccccc} i& 16 &17 &18 &19 & 20 & 21 &22 & 23 & 24 &25 & 26 & 27 & 28 & 29 & 30 \\\hline y_i & 8& 20 & 27& 7& 4& 13& 11& 5& 14& 9& 5& 18& 5& 16& 17 \end{array}\end{align}

また、このデータのヒストグラムを次に示す。

yのヒストグラム

このデータを小さい方から順に\(y_{(1)}, y_{(2)}, \ldots, y_{(30)}\)とし、並べると次のようになる。

\begin{gather} &\begin{array}{c|ccccccccccccccc} i & 1& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12 &13& 14 & 15 \\\hline y_{(i)} & 4 & 5& 5& 5& 5 &7 &7& 8& 8& 9& 9& 9& 9& 9& 10 \end{array} \\&\begin{array}{c|ccccccccccccccc}i & 16 &17 &18 &19 &20 &21 &22 &23&  24& 25& 26& 27 &28 &29& 30 \\\hline y_{(i)} &10& 10  &11 &11& 12& 13& 14&15& 16& 17& 18& 20& 23& 27& 35 \end{array} \end{gather}

また、このデータの度数は次の通り。

\begin{align}\begin{array}{c|ccccc} 値 & 4& 5& 7& 8& 9& 10& 11& 12& 13& 14& 15& 16& 17& 18& 20& 23& 27& 35
\\\hline 度数 &1 &4 &2 &2 &5 &3 &2 &1 &1 &1 &1 &1 &1 &1 &1 &1 & 1 & 1 \end{array}\end{align}

故にこのデータの平均値、中央値、最頻値はそれぞれ

\begin{align}\bar{y} &= \cfrac{1}{30}\sum_{i=1}^{30}y_i \\ &= \cfrac{1}{30}(12+ 15+ 35+ 10+ 23+ 7 +5 +11 +9 +9 +10 +10+ 9+ 9+ 8\\ &\qquad\ \ \ + 8+ 20+ 27+ 7 +4 +13+ 11 + 5+ 14 +9 +5 +18+ 5+ 16+ 17) \\ &= \cfrac{361}{30} \approx 12.0333, \\ \mathrm{median} &= \cfrac{y_{(30/ 2)}+ y_{(30 / 2 + 1)}}{2} \\ &= \cfrac{y_{(15)} + y_{(16)}}{2}\\ &= \cfrac{10 + 10}{2}  = 10,\\ \mathrm{mode} &= 9.\end{align}

これら3つの代表値をヒストグラムに対応させると次のようになる。

yのヒストグラムと代表値

上の図から分かるように、外れ値があることによって平均値が右に引っ張られていることが確認できる。また、平均値、中央値、最頻値の順番で外れ値に影響されやすいこともわかる。

このように、データに外れ値がある場合、代表値の選び方に注意が必要である。

データが二峰性を持つ場合(山が2つあるとき)

次にデータの分布が二峰性を持つ場合についてみていく。

次の31個のデータ\(z_1, z_2, \ldots, z_{31}\)が得られたとする。

\begin{align} &\begin{array}{c|ccccccccccccccc} i & 1 & 2& 3 &4 &5 &6 &7 &8 & 9 &10 & 11& 12 & 13& 14& 15 \\\hline z_i & 32 &3 &36 &20& 10& 28& 11& 9 &29& 30& 31& 35& 29& 29& 10 \end{array} \\&\begin{array}{c|ccccccccccccccc} i & 16& 17 &18 &19 & 20 & 21 &22 & 23 & 24 &25 & 26 & 27 & 28 & 29 & 30 & 31 \\\hline z_i & 6 & 26 & 8  &29 & 27 & 35 & 4 & 1& 10 & 7 & 30 & 10& 32& 34& 4 &12 \end{array}\end{align}

また、このデータのヒストグラムは次のようになる。

zのヒストグラム

ヒストグラムを描くことでこのデータの分布は二峰性を持つことが確認できる。このようなデータの場合、代表値として平均値、中央値がふさわしくないことが知られている。

このデータを小さい方から順に\(z_{(1)}, z_{(2)}, \ldots, z_{(30)}\)とし、並べると次のようになる。

\begin{gather} &\begin{array}{c|ccccccccccccccc} i & 1& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12 &13& 14 & 15 \\\hline z_{(i)} & 4 & 5& 5& 5& 5 &7 &7& 8& 8& 9& 9& 9& 9& 9& 10 \end{array} \\&\begin{array}{c|ccccccccccccccc}i & 16 &17 &18 &19 &20 &21 &22 &23&  24& 25& 26& 27 &28 &29& 30 \\\hline z_{(i)} &10& 10  &11 &11& 12& 13& 14&15& 16& 17& 18& 20& 23& 27& 35 \end{array} \end{gather}

また、このデータの度数は次の通り。

\begin{align}\begin{array}{c|ccccc} 値 & 1 &3 &4 &6 &7 &8 &9 &10& 11& 12& 20& 26& 27& 28& 29& 30& 31& 32& 34& 35& 36\\\hline 度数 & 1 &1 &2 &1 &1 &1 &1 &4 &1 &1 &1 &1 &1 &1 &4 &2 &1& 2& 1& 2& 1 \end{array}\end{align}故にこのデータの平均値、中央値、最頻値はそれぞれ\begin{align}\bar{z} &= \cfrac{1}{30}\sum_{i=1}^{30}z_i \\ &= \cfrac{1}{30}(32 + 3+ 36+ 20+ 10+ 28+ 11+ 9+ 29+ 30 +31+ 35+ 29+ 29+ 10+ 6+ \\ &\qquad\ \ \ + 26+ 8+ 29+ 27+ 35+ 4 +1 +10 +7 + 30+ 10+ 32+ 34+ 4+ 12 ) \\ &= \cfrac{617}{30} \approx 19.9032, \\ \mathrm{median} &= z_{((31 + 1)/ 2)} \\ &=  z_{(16)} \\ &= 10,\\ \mathrm{mode} &= 9.\end{align}

これら3つの代表値をヒストグラムに対応させると次のようになる。

zのヒストグラムと代表値

平均値は2つの山の間に位置し、中央値は右の山のふもとに位置している。一方、最頻値は2つ存在しそれぞれ2つの山の峠の部分と一致している。このようにデータの分布が多峰性を持つ場合、平均値や中央値のみでは分布の形状をとらえることはできない。データの度数を確認することで初めて、どのような分布からの標本なのかを把握することができる。

データの度数が1以下の場合

最後に、データの度数が1以下の場合、つまり最頻値が定義されない例を紹介する。次の\(10\)個のデータが得られたとする。

\begin{gather} &\begin{array}{c|cccccccccc} i & 1& 2& 3& 4& 5& 6& 7& 8& 9& 10 \\\hline u_{i} & 1 & 2& 3& 4& 5 & 6 &7& 8& 9& 10 \end{array} \end{gather}

このデータのヒストグラムは次のようになる。

uのヒストグラム

データの度数が全て1であるため、ヒストグラムは長方形のようになっていることが確認できる。

このデータを小さい方から順に\(u_{(1)}, u_{(2)}, \ldots, u_{(10)}\)とし、並べると次のようになる。

\begin{gather} &\begin{array}{c|cccccccccc} i & 1& 2& 3& 4& 5& 6& 7& 8& 9& 10 \\\hline u_{(i)} & 1& 2& 3& 4& 5 &6 &7& 8& 9& 10 \end{array} \end{gather}

また、このデータの度数は次の通り。

\begin{gather}\begin{array}{c|cccccccccc} 値 & 1& 2& 3& 4& 5& 6& 7 & 8 & 9 & 10 \\\hline 度数 &1 & 1 &1 &1 & 1&1 &1 &1 &1 &1 \end{array}\end{gather}

故にこのデータの平均値、中央値、最頻値はそれぞれ

\begin{align}\bar{u} &= \cfrac{1}{10}\sum_{i=1}^{10}u_i \\ &= \cfrac{1}{10}(1 + 2+ 3+ 4+ 5+ 6 +7 +8 +9 +10 ) \\ &= \cfrac{55}{10} = 5.5, \\ \mathrm{median} &= \cfrac{u_{(10/ 2)}+ u_{(10 / 2 + 1)}}{2} \\ &= \cfrac{u_{(5)} + u_{(6)}}{2}\\ &= \cfrac{5+ 6}{2}  = 5.5.\end{align}

データの度数が全て1であり、2以上の度数が存在しないため、このデータに対する最頻値は存在しない。これら2つの代表値をヒストグラムに対応させると次のようになる。

uのヒストグラムと代表値

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-,