【統計学】最尤推定・最尤推定量

統計学における点推定の一種である最尤推定または最尤推定量について解説する。

標本が与えられたとき、その標本が従う分布の母数（パラメータ）を推定する方法をみていく。

最尤推定の例として、母集団分布が正規分布である場合の最尤推定の手順や平均と分散の最尤推定量を導出していく。

統計学入門 (基礎統計学Ⅰ)

統計学の入門書におすすめ！

¥3,080 （2022/06/27 19:34時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

日本統計学会公式認定統計検定 2級公式問題集[2018〜2021年]

¥1,980 （2022/06/27 19:37時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

最尤推定

定義１　最尤推定・最尤推定量（離散変数）

最尤推定・最尤推定量（離散変数）

母数\(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^T\)と確率関数\(\mathrm{Pr}\{x|\boldsymbol{\theta}\}\)をもつ確率分布\(F\)からの標本を\(x_1,\ldots, x_n\)とする。このとき最尤推定とは、標本\(x_1,\ldots, x_n\)が与えられたときの尤度関数\(L\)を最大化する\(\boldsymbol{\theta}\)を求めることをいう。また、最大化する\(\hat{\boldsymbol{\theta}} = \boldsymbol{\theta}\)を最尤推定利用という。

\begin{align}\hat{\boldsymbol{\theta}} = \arg \max_{\boldsymbol{\theta}} L(\boldsymbol{\theta} | x_1, \ldots, x_n),\end{align}

ここに、尤度関数\(L\)は次で与えられる。

\begin{align}L(\boldsymbol{\theta} | x_1, \ldots, x_n) = \prod_{i=1}^n \mathrm{Pr}\{x_i | \boldsymbol{\theta}\}.\end{align}

定義２　最尤推定・最尤推定量（連続変数）

最尤推定・最尤推定量（連続変数）

母数\(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_k)^T\)と確率密度関数\(f(x|\boldsymbol{\theta})\)をもつ確率分布\(F\)からの標本を\(x_1,\ldots, x_n\)とする。このとき最尤推定とは、標本\(x_1,\ldots, x_n\)が与えられたときの尤度関数\(L\)を最大化する\(\boldsymbol{\theta}\)を求めることをいう。また、最大化する\(\hat{\boldsymbol{\theta}} = \boldsymbol{\theta}\)を最尤推定利用という。

\begin{align}\hat{\boldsymbol{\theta}} = \arg \max_{\boldsymbol{\theta}} L(\boldsymbol{\theta} | x_1, \ldots, x_n),\end{align}

ここに、尤度関数\(L\)は次で与えられる。

\begin{align}L(\boldsymbol{\theta} | x_1, \ldots, x_n)\prod_{i=1}^n f(x_i| \boldsymbol{\theta}).\end{align}

この定義1と定義2から、最尤推定とは標本が与えられたときに、その標本が尤も発生しうるようなパラメータ\(\boldsymbol{\theta}\)を求めることであることが分かる。

補足として、確率関数\(\mathrm{Pr}\{x | \boldsymbol{\theta}\}\)または確率密度関数\(f(x|\boldsymbol{\theta})\)から尤度関数\(L(\boldsymbol{\theta} | x_1, \ldots, x_n)\)を構成しているが、尤度関数は母数\(\boldsymbol{\theta}\)の関数であることに注意する必要がある。すでに標本\(x_1, \ldots, x_n\)が与えられており、それらの標本が従う分布の母数を推定するために尤度を最大化するような母数を求めている。

最尤推定の例（母集団分布が正規分布）

\(x_1,\ldots, x_n\)は\(N(\mu, \sigma^2)\)からの独立同一な標本であるとする。このとき、母集団分布は次の確率密度関数をもつ。

\begin{align}f(x | \mu, \sigma^2) &= \cfrac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x - \mu)^2}.\end{align}

尤度関数\(L(\mu, \sigma^2 )\)は次で与えられる。

\begin{align}\label{eq1} L(\mu, \sigma^2 | x_1, \ldots, x_n) &= \prod_{i=1}^n \cfrac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_i - \mu)^2} .\tag{1}\end{align}

平均\(\mu\)の最尤推定量

定義1より\(\mu\)の最尤推定量は次で与えられる。

\begin{align}\hat{\mu} = \arg \max_{\mu}L(\mu, \sigma^2 | x_1, \ldots, x_n).\end{align}

尤度関数が最大になるときの\(\mu\)を求めるために、次のように対数尤度関数を最大にする\(\mu\)を求める。

\begin{align}\arg \max_{\mu}\log L(\mu, \sigma^2|x_1, \ldots, x_n).\end{align}

これは、\(\log\)が単調増加関数であるので、対数尤度関数を最大にする\(\mu\)は尤度関数を最大にすることが一意に言えるためである。上式を求めるために次の方程式を解く。

\begin{align}\label{eq2} \cfrac{\partial}{\partial \mu} \log L(\mu, \sigma^2|x_1, \ldots, x_n) = 0 \tag{2}\end{align}

この式の左辺は

\begin{align}& \cfrac{\partial}{\partial \mu} \left[\log \cfrac{1}{(2\pi)^{\frac{n}{2}} (\sigma^2)^{\frac{n}{2}}} e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \mu)^2} \right] \\&= \cfrac{\partial}{\partial \mu}\left[ -\cfrac{n}{2} \log 2\pi -\cfrac{n}{2} \log \sigma^2 -\cfrac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \mu)^2\right]\\&= \cfrac{1}{\sigma^2}\sum_{i=1}^n(x_i - \mu)\\&=\cfrac{1}{\sigma^2} n(\bar{x} - \mu)\end{align}

で表されることから、\eqref{eq2}の解は次となる。

\begin{align}&\cfrac{1}{\sigma^2} n(\bar{x} - \mu) = 0\\ &\Leftrightarrow \mu = \bar{x}.\end{align}

したがって、\(\mu\)の最尤推定量\(\hat{\mu}\)は

\begin{align}\hat{\mu} = \bar{x}\end{align}

である。

分散\(\sigma^2\)の最尤推定量（\(\mu\)が既知）

次に、分散\(\sigma^2\)の最尤推定量を導出する。\eqref{eq1}の尤度関数より、\(\sigma^2\)の最尤推定量は次で与えられる。

\begin{align}\hat{\sigma}^2 = \arg \max_{\sigma^2}L(\sigma^2 | x_1, \ldots, x_n).\end{align}

尤度関数が最大になるときの\(\sigma^2\)を求めるために、次を求める。

\begin{align}\arg \max_{\sigma^2}\log L(\sigma^2|x_1, \ldots, x_n).\end{align}

平均\(\mu\)のときと同様に、次の方程式を解く

\begin{align}\label{eq3}\cfrac{\partial}{\partial \sigma^2}\log L(\sigma^2|x_1, \ldots, x_n) = 0.\tag{3}\end{align}

この式の左辺は

\begin{align}&\cfrac{\partial}{\partial \sigma^2}\left[ -\cfrac{n}{2} \log 2\pi -\cfrac{n}{2} \log \sigma^2 -\cfrac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \mu)^2\right]\\&= -\cfrac{n}{2\sigma^2} + \cfrac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i - \mu)^2 \end{align}

で表されることから、\eqref{eq3}の解は次となる。

\begin{align}&-\cfrac{n}{2\sigma^2} + \cfrac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i - \mu)^2 =0\\&\Leftrightarrow \sigma^2 = \cfrac{1}{n}\sum_{i=1}^n(x_i - \mu)^2 .\end{align}

故に、\(\sigma^2\)の最尤推定量\(\hat{\sigma}^2\)は次となる。

\begin{align}\hat{\sigma}^2 = \cfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2.\end{align}

上記の推定量には\(\mu\)が含まれており、平均\(\mu\)が既知でないと\(\sigma^2\)の最尤推定量を求めることができないことが分かる。次では、\(\mu\)が未知の場合での\(\sigma^2\)の最尤推定量を導出する。

分散\(\sigma^2\)の最尤推定量（\(\mu\)が未知）

平均\(\mu\)に依らない分散の推定量を得たい。そのために、次のように\(\mu\)と\(\sigma^2\)に関して尤度関数を最大化することを考える。

\begin{align}\max_{\mu, \sigma^2}L(\mu, \sigma^2 | x_1, \ldots, x_n).\end{align}

この\(\mu\)に関する解は平均のときと同様に導出でき、\(\hat{\mu} = \bar{x}\)である。\(\mu = \hat{\mu}\)が与えられた下で、\(\sigma^2\)に関する尤度関数の最大化をする。同様に\(\sigma^2\)で偏微分し、次の方程式を解く。

\begin{align}\label{eq4}\cfrac{\partial}{\partial \sigma^2}\log L(\mu = \hat{\mu}, \sigma^2|x_1, \ldots, x_n) = 0.\tag{4}\end{align}

この式の左辺は

\begin{align} &\cfrac{\partial}{\partial \sigma^2}\left[ -\cfrac{n}{2} \log 2\pi -\cfrac{n}{2} \log \sigma^2 -\cfrac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \hat{\mu})^2\right]\\&= -\cfrac{n}{2\sigma^2} + \cfrac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i - \bar{x})^2 \end{align}

で表されることから、\eqref{eq4}の解は次となる。

\begin{align}& -\cfrac{n}{2\sigma^2} + \cfrac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i - \bar{x})^2 = 0\\ &\Leftrightarrow \sigma^2 = \cfrac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2.\end{align}

故に、\(\sigma^2\)の最尤推定量\(\hat{\sigma}^2\)は次となる。

\begin{align}\hat{\sigma}^2 = \cfrac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2.\end{align}\begin{align}.\end{align}