統計学

【統計学】歪度と尖度 記述統計

  1. HOME >
  2. 統計学 >

【統計学】歪度と尖度 記述統計

スポンサーリンク

データの分布の形状(対称性や鋭さ)を表す尺度である歪度と尖度について解説する。

ここでは、母集団分布ではなく観測値に基づく標本歪度と標本尖度の定義やその計算例を扱う。

計算例では、様々なデータに対しての歪度と尖度を計算し、ヒストグラムとの関係について見ていく。

平均値や分散、中央値については以下の記事を参照。

 

歪度・尖度

\(n\)個のデータ\(x_1, x_2, \ldots, x_{n}\)の標本歪度と標本尖度の定義を以下にまとめる。簡便のため次の\(m_i\)を定義する。

\begin{align}m_i =\cfrac{1}{n} \sum_{j = 1}^n(x_j - \bar{x})^i ,\end{align}

ここに\(\bar{x}\)は次で定義される標本平均。

\begin{align}\bar{x} = \cfrac{1}{n} \sum_{i = 1}^n x_i.\end{align}

歪度は次で定義される。3次モーメントの推定量を2次モーメントの推定量の2分の3乗で割ったもので与えられる。

標本が標本平均について対称的に分布しているかを表す尺度である。歪度0に近いとき標本は左右対称に分布しており、負のときは分布が左に偏っており、反対に正のときは右に偏っている。

標本歪度

\(x_1, x_2, \ldots, x_{n}\)に対する歪度は次で定義される。

\begin{align} g_1 =  \cfrac{m_3}{m_2^{3/ 2}} = \cfrac{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^3}{\bigl[\frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2\bigr]^{3 / 2}}.\end{align}

尖度は次のように定義される。4次モーメントの推定量を2次モーメントの推定量の二乗で割ったもので与えられる。尖度は標本の頻度分布の鋭さを表す指標である。

-3があるのは正規分布のときの尖度が0になるように補正しているためであり、0に近いほど頻度分布は正規分布に近いことを意味する。

0より大きいときは正規分布よりも鋭い、すなわち標本平均に多くのデータが集中していることを意味し、反対に0より小さいときは頻度分布の形状が正規分布と乖離していることを意味する。

標本尖度

\(x_1, x_2, \ldots, x_{n}\)に対する尖度は次で定義される。

\begin{align} g_2 =  \cfrac{m_4}{m_2^2} = \cfrac{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^4}{\bigl[\frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2\bigr]^2} -3 .\end{align}

歪度と尖度の計算例

歪度と尖度の具体的な計算例をいくつか紹介する。

計算例1

次の30個の標本\(x_1, x_2, \ldots, x_{30}\)が得られたとする。また、下の画像はこの標本に対するヒストグラムである。

\begin{align} &\begin{array}{c|ccccccccccccccc} i& 1& 2&3 & 4& 5& 6&  7 & 8 & 9 & 10& 11 & 12& 13& 14& 15  \\\hline  x_i & 6& 19 & 16& 9& 12& 17 & 10&  10& 0& 10& 10& 4& 10& 6& 13 \end{array} \\ &\begin{array}{c|ccccccccccccccc} i & 16 & 17& 18& 19 & 20 & 21& 22 & 23 & 24 & 25 & 26 & 27 & 28& 29 & 30 \\\hline x_i & 10&  9& 12& 5& 8& 12& 6& 12& 6& 10& 13& 3& 13& 15& 9  \end{array}\end{align}

xのヒストグラム

今、標本平均は

\begin{align} \bar{x} &= \cfrac{1}{30}\sum_{i = 1}^{30} x_i \\ &= \cfrac{1}{30}(6+ 19+ 16 +9 + 12+ 17+ 10+ 10+ 0+ 10+ 10+ 4+ 10+ 6 +13\\&\qquad\quad +10 + 9+ 12+ 5+ 8+ 12+ 6+ 12+ 6+ 10+ 13+ 3+ 13+ 15+ 9)\\ &= \frac{59}{6} = 9.8333 \end{align}

であることから、この標本に対する\(m_{xi},\ i = 2, 3,4 \)はそれぞれ次となる。

\begin{align}m_{x2} &= \cfrac{1}{30}\sum_{i=1}^{30}( x_i  - \bar{x})^2\\ &= \cfrac{1}{30}\Biggl[ \cfrac{1}{36}\bigl\{ (-23)^2 + 55^2 + 37^2+ ( -5)^2 + 13^2 + 43^2 +  1^2 +  1^2 + (-59)^2 + 1^2 +  1^2 +(-35)^2 + 1^2 + (-23)^2 + 19^2 \\ &\qquad\qquad\quad + 1^2 +( -5)^2 + 13^2 + (-29)^2 + (-11)^2 + 13^2 + (-23)^2 + 13^2+( -23)^2 + 1^2+ 19^2 + (-41)^2 + 19^2  +31^2+ (-5)^2\bigr\} \Biggr] \\ &= \cfrac{617}{36} \approx 17.1389,\\ m_{x3} &= \cfrac{1}{30}\sum_{i=1}^{30}( x_i  - \bar{x})^3\\ &= \cfrac{1}{30}\Biggl\{ \cfrac{1}{216} \bigl\{ (-23)^3 + 55^3 + 37^3+ ( -5)^3 + 13^3 + 43^3 +  1^3+   1^3 + (-59)^3 + 1^3 +  1^3 +(-35)^3 + 1^3 + (-23)^3 + 19^3 \\ &\qquad\qquad\quad\ \  + 1^3 +( -5)^3 + 13^3 + (-29)^3 + (-11)^3 + 13^3 + (-23)^3 + 13^3+( -23)^3 + 1^3+ 19^3 + (-41)^3 + 19^3  +31^3+ (-5)^3\bigr\}\Biggr\}\\ &=\cfrac{151}{27} \approx -5.5926,\\ m_{x4} &= \cfrac{1}{30}\sum_{i=1}^{30}( x_i  - \bar{x})^4\\ &= \cfrac{1}{30}\Biggl\{ \cfrac{1}{1296} \bigl\{ (-23)^4 + 55^4 + 37^4+ ( -5)^4 + 13^4 + 43^4 +  1^4 +  1^4 + (-59)^4 + 1^4 +  1^4 +(-35)^4 + 1^4 + (-23)^4 + 19^4 \\ &\qquad\qquad\qquad + 1^4 +( -5)^4 + 13^4 + (-29)^4 + (-11)^4 + 13^4 + (-23)^4 + 13^4  +( -23)^4 + 1^4+ 19^4 + (-41)^4 + 19^4  +31^4 + (-5)^4\bigr\}\Biggr\}\\ &=\cfrac{379547}{432} \approx 878.5810.\end{align}

したがって、標本\(x_1, x_2, \ldots, x_{30}\)の歪度と尖度を計算すると次となる。

\begin{align}g_{x1} &=\cfrac{m_{x3}}{m_{x2}^{3/2}} \\ &= \cfrac{ 151 / 27}{(617 / 36)^{3/ 2}} \\ &\approx -0.0788,\\g_{x2} &= \cfrac{m_{x4}}{m_{x2}^2} - 3\\ &= \cfrac{379547 / 432}{(617 / 36)^2}  - 3\\ &=\cfrac{ (379547 / 432)- 1142067 / 1296 }{(617 / 36)^2}\approx -0.0090.\end{align}

上の画像のヒストグラムから分かるように、頻度分布は標本平均を中心に左右対称に分布しており、歪度が0に近いことと対応しているのが分かる。

また、尖度が0に近いため、標本平均の周りに多くの標本が集中している。

実際に、これらの標本\(x_1, x_2, \ldots, x_{30}\)は正規分布の乱数から発生させた標本であり、歪度と尖度がともに0である母集団分布の特徴をうまく推定できているといえる。

計算例2

続いて、次のヒストグラムのような左右対称でない頻度分布をもつ標本\(y_1, y_2, \ldots, y_{30}\)について歪度と尖度を計算する。

\begin{align} &\begin{array}{c|ccccccccccccccc} i & 1 & 2& 3 &4 &5 &6 &7 &8 & 9 &10 & 11& 12 & 13& 14& 15 \\\hline y_i &12 &15 &8 &10 &23& 7& 30& 5& 7& 12& 5& 11& 10& 7 & 27 \end{array} \\ &\begin{array}{c|ccccccccccccccc} i& 16 &17 &18 &19 & 20 & 21 &22 & 23 & 24 &25 & 26 & 27 & 28 & 29 & 30 \\\hline y_i & 8  &20 & 4& 7& 4& 2& 11& 5& 5& 5& 18& 13& 16& 17& 25 \end{array}\end{align}

yのヒストグラム

計算例1と同様に、標本平均は

\begin{align}\bar{y} &= \cfrac{1}{30} \sum_{i = 1}^{30}y_i \\ &= \cfrac{1}{30}(12 +15 +8 +10 +23+ 7+ 30+ 5+ 7+ 12+ 5+ 11+ 10+ 7+ 27\\&\qquad + 8+ 20+ 4+ 7+ 4+ 2+ 11+ 5+ 5+ 5+ 18+ 13+ 16+ 17+ 25)\\ &= \cfrac{349}{30} \approx 11.6333,\end{align}

\(m_{yi},\  i = 2, 3, 4\)は

\begin{align}m_{y2} &= \cfrac{1}{30}\sum_{i= 1}^{30}(y_i - \bar{y})^2\\ &= \cfrac{1}{30} \sum_{i=1}^{30}\Biggl[ \cfrac{1}{900}\bigl\{11^2 + 101^2+( -109)^2 + (-49)^2 + 341^2 +( -139)^2 + 551^2 + (-199)^2 + (-139)^2 + 11^2 + (-199)^2 + (-19)^2+ (-49)^2 + (-139)^2 + 461^2 \\&\qquad\qquad\qquad\quad + (-109)^2 + 251^2 + (-229)^2+ (-139)^2 + (-229)^2 + (-289)^2 + (-19)^2 + (-199)^2 + (-199)^2 + (-199)^2 + 191^2+ 41^2 +131^2 + 161^2 +401^2\bigr\}\Biggr]\\ &= \cfrac{48029}{900} \approx 53.3656, \\ m_{y3} &= \cfrac{1}{30}\sum_{i= 1}^{30}(y_i - \bar{y})^3\\ &= \cfrac{1}{30} \sum_{i=1}^{30}\Biggl[ \cfrac{1}{2700}\bigl\{11^3 + 101^3+( -109)^3 + (-49)^3 + 341^3 +( -139)^3 + 551^3 + (-199)^3 + (-139)^3 + 11^3 + (-199)^3 + (-19)^3+ (-49)^3 + (-139)^3 + 461^3 \\&\qquad\qquad\qquad\quad\ \ + (-109)^3 + 251^3 + (-229)^3+ (-139)^3 + (-229)^3 + (-289)^3 + (-19)^3 + (-199)^3 + (-199)^3 + (-199)^3 + 191^3+ 41^3 +131^3 + 161^3 +401^3\bigr\}\Biggr]\\ &= \cfrac{2487947}{675} \approx 3685.8474, \\ m_{y4} &= \cfrac{1}{30}\sum_{i= 1}^{30}(y_i - \bar{y})^4\\ &= \cfrac{1}{30} \sum_{i=1}^{30}\Biggl[ \cfrac{1}{81000}\bigl\{11^4 + 101^4+( -109)^4 + (-49)^4 + 341^4 +( -139)^4 + 551^4 + (-199)^4 + (-139)^4 + 11^4 + (-199)^4 + (-19)^4 + (-49)^4 + (-139)^4 + 461^4 \\&\qquad\qquad\qquad\qquad+ (-109)^4 + 251^4 + (-229)^4+ (-139)^4 + (-229)^4 + (-289)^4 + (-19)^4 + (-199)^4 + (-199)^4 + (-199)^4 + 191^4 + 41^4 +131^4 + 161^4 +401^4\bigr\}\Biggr]\\ &= \cfrac{2279940659}{27000} \approx 84442.2466\end{align}

であることから、この標本の歪度と尖度は次のようになる。

\begin{align}g_{y1} &=\cfrac{m_{y3}}{m_{y2}^{ 3/ 2}} \\&= \cfrac{2487947 / 675}{(48029 / 900)^{3/ 2}} \\&\approx 0.9455, \\ g_{y2} &= \cfrac{m_{y4} }{m_{y2}^2} - 3 \\ &= \cfrac{2279940659 / 27000}{(48029 / 900)^2} - 3 \\ &=\cfrac{2279940659 / 27000 - 2306784841 / 270000 }{(48029 / 900)^2} \approx -0.0349.\end{align}

ヒストグラムから分かるように、標本が右に歪んでいるため歪度は正となる。

尖度は0に近く、頻度分布の鋭さは正規分布と同等であることが言える。

このように、歪度と尖度は標本の頻度分布(ヒストグラム)や母集団分布の特徴を要約するのに便利である。

ヒストグラムとの関係

次に、ヒストグラム(頻度分布)と歪度、尖度の関係について見ていく。

中央値が同じでも標本平均に対し左右対称に分布していないときや、尖度が異なり度数分布の鋭さが異なる場合を例に、歪度と尖度の変化によってヒストグラムの形状がどのように変化するのかを詳しく解説する。

歪度

まず、歪度とヒストグラムの関係について紹介する。歪度が異なる3つのデータを例に歪度とヒストグラム(頻度分布)の形状の関係をみていく。

次のヒストグラムは歪度の異なる3つのデータに関するものであり、Skewness、Kurtosis、medianはそれぞれ歪度、尖度、中央値を指す。

ヒストグラムと歪度

赤線の中央値はxとyで同じであるのに対し、歪度が異なるため分布の形状が全く異なるのが見て取れる。

xは歪度が0に近く分布の中心(標本平均)に対して左右対称に分布しており、正規分布に近い形状をしているのに対し、yは左右非対称で分布の右裾が長くなっており外れ値がいくつか存在するのが分かる。

このグラフから歪度が大きくなるほどヒストグラムの形状は右に歪み、分布の右裾が長くなることが言える。

また、反対に歪度が小さくなるほどヒストグラムの形状は左に歪み、分布の左裾が長くなる。

このように中央値が同じ分布であっても度数分布の形状や標本(データ)の性質が全く異なる場合が存在するため、平均値や中央値などの代表値だけでデータを要約するは不十分であることが理解できる。

尖度

歪度に続いて、尖度とヒストグラムの関係について見ていく。

次のヒストグラムは尖度が異なる3つのデータに関するものである。

ヒストグラムと尖度

3つのデータの中央値は全て10であり、歪度も全て0であり10を中心に左右対称にデータが分布していることが分かる。

一方、尖度は全て異なり、一番上のデータの尖度は0に近く、真ん中は0よりも大きく、一番下は0よりも小さい。

ヒストグラムから分かるように、データのヒストグラムの形状が正規分布に近いほど0に近い。

0よりも大きいときはヒストグラムの形状が正規分布のものよりも鋭く、多くのデータが標本平均の周りに分布している。

逆に、0よりも小さいときは、ヒストグラムは正規分布よりもなだらかであり、特に小さくなるほど形状が釣鐘形(ベルカーブ)から乖離していく。一番下の図のようにヒストグラムの形状が混合分布のようなときや、一様分布のときは尖度が負となる。

スポンサーリンク

  • この記事を書いた人
  • 最新記事

usagi-san

統計学とゲームとかをメインに解説していくよ。 数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

-統計学
-,