【統計学】正規分布の確率密度関数

統計学や確率論で重要な正規分布の確率密度関数を厳密に導出していきます。

確率変数が正規分布に従うなどの仮定は一切用いずに証明していきます。

分布の対称性やベルカーブの性質などを用いて、導出していきます。

統計学入門 (基礎統計学Ⅰ)

統計学の入門書におすすめ！

¥3,080 （2022/06/27 19:34時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

改訂版日本統計学会公式認定統計検定2級対応統計学基礎

統計学の基礎を学習したい方へ

¥2,420 （2022/06/08 18:12時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

正規分布

正規分布の確率密度関数

確率変数\(X\)が次の確率密度関数をもつとき、\(X\)は正規分布に従うという。\begin{align}f(x) = \cfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\cfrac{(x-\mu)^2}{2\sigma^2}\right\},\end{align}ここに、\(\mu\)は実数であり、\(\sigma^2>0\)である。

\(X\)が上式の確率密度関数をもつとき、\(X\)は正規分布、またはガウス分布に従うという。次に、この確率密度関数がどのように導出されたかみていく。

確立密度関数の導出

正規分布の確率密度関数の導出をする。まず前提として、同一の確率密度関数\(f\)をもつ互いに独立な確率変数\(X_1\)と\(X_2\)について、次の微小区間の確率を与える。

\begin{align}\mathrm{Pr}\{x_1 \leq X_1 \leq x_1+\Delta x_1\} &= \int_{x_1}^{x_1+\Delta x_1}f(u)du \approx f(x_1)\Delta x_1,\\\mathrm{Pr}\{x_2 \leq X_2 \leq x_2+\Delta x_2\} &= \int_{x_2}^{x_2+\Delta x_2}f(u)du \approx f(x_2)\Delta x_2.\end{align}

ここで、\(x_1\)と\(x_2\)は互いに独立であることより、\(X_1\)と\(X_2\)の同時密度関数は\(f(x_1, x_2)=f(x_1)f(x_2)\)である。よって、上式のの領域は次で表すことができる。

\begin{align}\mathrm{Pr}\{x_1 \leq X_1 \leq x_1+\Delta x_1, x_2 \leq X_2 \leq x_2+\Delta x_2\}&=f(x_1, x_2)\Delta x_1 \Delta x_2\\&= f(x_1)f(x_2)\Delta x_1\Delta x_2.\end{align}

また、これら2つの分布が原点\((0, 0)\)が中心ではなく、\((\mu, \mu)\)が中心であるとき、つまり中心\((0, 0)\)の確率密度関数\(g\)をもつ確率変数を\(Y_1 = X_1 + \mu\)、\(Y_2=X_2+\mu\)のとき、領域は次で与えられる。

\begin{align}&\mathrm{Pr}\{x_1 \leq Y_1\leq x_1+\Delta x_1, x_2 \leq Y_2\leq x_2+\Delta x_2\}\\&=\mathrm{Pr}\{x_1+\mu \leq Y_1+\mu \leq x_1+\mu+\Delta x_1, x_2 +\mu\leq Y_2+\mu\leq x_2+\mu+\Delta x_2\}\\&=\mathrm{Pr}\{x_1+\mu \leq X_1 \leq x_1+\mu+\Delta x_1, x_2 +\mu\leq X_2\leq x_2+\mu+\Delta x_2\}\\&=\int_{x_1+\mu}^{x_1+\mu+\Delta x_1}\int_{x_2+\mu}^{x_2+\mu+\Delta x_2}f(x_1)f(x_2)dx_1dx_2\\\label{eq1}&= f(x_1+\mu)f(x_2+\mu)\Delta x_1 \Delta x_2.\tag{1}\end{align}

また次のように、\eqref{eq1}の確率密度\(f(x_1+\mu)f(x_2+\mu)\)と等しい確率密度をもつ確率変数を\(R\)とし、この確率密度関数を\(h(r)\)とする。

\begin{align}f(x_1+\mu)f(x_2+\mu)\Delta x_1 \Delta x_ 2= h(r)\Delta x_1 \Delta x_2.\end{align}

関数\(h(r)\)は、角度\(\theta\)に依らないことを仮定している。極座標変換\(x_1 = r\sin\theta\)、\(x_2=r\cos\theta\)を用いると

\begin{align}\cfrac{dh(r)}{d\theta} &= f(x_2+\mu)\cfrac{d}{d\theta}f(x_1+\mu) + f(x_1+\mu)\cfrac{d}{d\theta}f(x_2+\mu)\\&= f(x_2+\mu)\cfrac{df(x_1+\mu)}{d(x_1+\mu)}\cfrac{d(x_1+\mu)}{d\theta} + f(x_1+\mu)\cfrac{df(x_2+\mu)}{d(x_2+\mu)}\cfrac{d(x_2+\mu)}{d\theta}\\&=f(x_2+\mu)f'(x_1+\mu)(-r\sin\theta)+f(x_1+\mu)f'(x_2+\mu)r\cos\theta\end{align}

が成り立つ。故に、次の関係が示された。

\begin{align}\label{eq2}0=f(x_1+\mu)f'(x_2+\mu)r\cos\theta-f(x_2+\mu)f'(x_1+\mu)r\sin\theta\tag{2}\end{align}

また、\eqref{eq2}の\(r\cos\theta\)と\(r\sin\theta\)をそれぞれ\(x_1\)と\(x_2\)で置き換えるとがいえる。

\begin{align}&f(x_1+\mu)f'(x_2+\mu)x_1=f(x_2+\mu)f'(x_1+\mu)x_2\\&\label{eq3}\Leftrightarrow \cfrac{f'(x_2+\mu)}{f(x_2+\mu)x_2} = \cfrac{f'(x_1+\mu)}{f(x_1+\mu)x_1}, \ \ \forall x_1, x_2\in \mathbb{R}\tag{3} \end{align}

次のように\eqref{eq3}を定数\(C\)で固定する。

\begin{align} \cfrac{f'(x_2+\mu)}{f(x_2+\mu)x_2} = \cfrac{f'(x_1+\mu)}{f(x_1+\mu)x_1} = C\end{align}

左辺について

\begin{align}&\cfrac{df(x_2+\mu)/d(x_2+\mu)}{f(x_2+\mu)x_2} = C \\&\Leftrightarrow \int \cfrac{df(x_2+\mu)}{f(x_2+\mu)} =\int Cx_2 d(x_2+\mu)\\&\Leftrightarrow \log\bigl\{f(x_2+\mu)\bigr\}=\cfrac{C}{2}x_2^2+C_2\\&\Leftrightarrow f(x_2+\mu) = \exp\left(\cfrac{C}{2}x_2^2+C_2\right)=A\exp\left(\cfrac{C}{2}x_2^2\right)\end{align}

がいえる。同様に、\(x_1\)についても次の関係式が示せる。

\begin{align}f(x_1+\mu) = B\exp\left(\cfrac{C}{2}x_1^2\right).\end{align}

ここまでの結果を以下にまとめる。

\begin{align}f(x_2+\mu)= A\exp\left(\cfrac{C}{2}x_2^2\right),\ \ f(x_1+\mu)=B\exp\left(\cfrac{C}{2}x_1^2\right)\end{align}

正規分布（ガウス分布）の性質から、中心からの距離が大きいほど事象が起こりにくい。したがって指数の肩の部分をマイナスでなくてはならないので、\(C\)を\(-C\)で置き換えることで次を得る。

\begin{align}f(x_2+\mu)= A\exp\left(-\cfrac{C}{2}x_2^2\right),\ \ f(x_1+\mu)=B\exp\left(-\cfrac{C}{2}x_1^2\right)\end{align}

また、\(y_1 = x_1+\mu\)、\(y_2 = x_2+\mu\)の変換を行うと次となる。

\begin{align}f(y_2) = A\exp\left\{-\cfrac{C}{2}(y_2-\mu)^2\right\}, f(y_2) = B\exp\left\{-\cfrac{C}{2}(y_1-\mu)^2\right\}.\end{align}

確率密度関数の定義として、確率密度の取りうる範囲で積分を行うと\(1\)になる性質がある。よって

\begin{align}&\int_{-\infty}^{\infty} A\exp\left\{-\cfrac{C}{2}(y_2-\mu)^2\right\}dy_2= A\int_{-\infty}^{\infty}\exp\left\{-\cfrac{C}{2}(y_2-\mu)^2\right\}dy_2 = 1\\\label{eq4}&\Leftrightarrow \int_{-\infty}^{\infty}\exp\left\{-\cfrac{C}{2}(y_2-\mu)^2\right\}dy_2 = \cfrac{1}{A}.\tag{4}\end{align}

ここで\(z=y_2-\mu\)の変換を行うと上式の2行目は次となる。

\begin{align} \int_{-\infty}^{\infty}\exp\left\{-\cfrac{C}{2}(y_2-\mu)^2\right\}dy_2 = \int_{-\infty}^{\infty}\exp\left(-\cfrac{C}{2}z^2\right)dz\end{align}

上式の2行目の左辺の積分はガウス積分であることから

\begin{align} \int_{-\infty}^{\infty}\exp\left(-\cfrac{C}{2}z^2\right)dz = \sqrt{\cfrac{2\pi}{C}}\end{align}

である。故に、\eqref{eq4}より

\begin{align}&\int_{-\infty}^{\infty}\exp\left(-\cfrac{C}{2}z^2\right)dz = \sqrt{2\pi} = \cfrac{1}{A}\\&\Leftrightarrow A= \sqrt{\cfrac{C}{2\pi}}. \end{align}

したがって、\(Y_2\)の確率密度関数は次となる。

\begin{align}f(y_2)=\cfrac{1}{\sqrt{2\pi/C}}\exp\left\{-\cfrac{C}{2}(y_2-\mu)^2\right\}\end{align}

同様に、\(Y_1\)の確率密度関数も得られる。

\begin{align}f(y_1)=\cfrac{1}{\sqrt{2\pi/C}}\exp\left\{-\cfrac{C}{2}(y_1-\mu)^2\right\}\end{align}

ここで、定数\(C\)を\(\sigma^2 = 1/C\)と置き換えることで次の正規分布の確率密度関数が得られた。

\begin{align}f(y_1) = \cfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\cfrac{(y_1-\mu)^2}{2\sigma^2}\right\}.\end{align}

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-統計学
-統計学

comment コメントをキャンセル

: 統計学
【統計学】母平均の差の検定の検出力
標本の母集団分布が正規分布であるときの母平均の差の検出力についてみていく。検出力の定義を与え、分散が既知であるときと未知であるときのそれぞれの検出力を導出する。母平均の検出力については以下を参照。 ...

: 統計学
【統計学】離散分布　確率質量関数　同時分布・周辺分布・条件付き分布
離散確率変数のもつ確率質量関数についてみていく。確率質量関数の定義を与えて、同時確率質量関数や条件付き確率質量関数などを具体例とともに解説する。確率密度関数については以下を参照されたい。確率質量 ...

: 統計学
【統計学】オッズ比の信頼区間
オッズ比の信頼区間を解説する。オッズ比の信頼区間とその導出方法についてみていく。対数オッズ比が漸近的に正規分布に従うこととを用いてオッズ比の信頼区間を構成する。オッズ比については次の記事を参照され ...

: 統計学
【統計学】重回帰分析・線形回帰　回帰係数の最小二乗推定量と検定
回帰分析のうちの1つである線形回帰を解説する。線形回帰（重回帰分析）のモデルを与え、回帰係数の最小二乗推定量の導出や回帰係数に関する検定統計量の導出を行っていく。 R言語での線形回帰の実行方法は以下 ...

: 統計学
独立なカイ2乗分布の積の分布【統計学】
独立なカイ2乗分布がの積の分布を導出する。カイ2乗分布は再生性を持つように、独立なカイ2乗分布の和の分布は再びカイ2乗分布に従い、さらに積の分布もカイ2乗分布に従う確率変数で表現することが可能である ...

連続分布の特性関数【統計学】

離散分布のモーメント【統計学】