R言語

【R言語】関数lmによる線形回帰 単回帰分析・重回帰分析 回帰分析で予測する

  1. HOME >
  2. R言語 >

【R言語】関数lmによる線形回帰 単回帰分析・重回帰分析 回帰分析で予測する

スポンサーリンク

R言語の回帰分析の実行方法を紹介していきます。回帰分析の実行方法だけでなく、回帰分析により作ったモデルでテストデータの予測も行っていきます。

実行方法では、回帰分析の結果の見方やその抽出方法を詳しく解説し、テストデータの予測などはプロットを用いて視覚的に分かりやすく解説していきます。

今回扱うプログラミングコードも全て、以下からダウンロード可能です。

テンプレートとして自由に扱ってください。

Rでデータ解析を始めるならコレ
¥3,300 (2022/06/01 17:20時点 | Amazon調べ)

単回帰分析

データセットの用意

今回は、次のrockという油田の石に関するデータセットを回帰分析に用います。

rockはnumeric型area、peri、shapefactor型のpermという変数で構成されています。

このデータセットを関数plotで描画すると、次のように各変数の相関図をプロットをすることができます。

相関図

また、この相関の尺度である相関係数は、相関行列を求める関数cov2corと、関数varを用いることで次のように列挙することが可能です。

補足として、分散を計算する関数varの引数にデータフレームなどの複数の変数から成るデータを代入すると、共分散行列を計算することが可能です。この共分散行列をcov2corの引数に代入することにより、共分散行列を対応する相関行列に変換することができます。

上の各相関係数(corMatrixの要素)を見ると、areaとperiの相関係数が0.8225064と高く、相関が強いことが分かります。

このように、回帰分析などの統計解析をおこなう前に、データをプロットしたり変数間の相関係数を求めたりすると、どのような解析を行えば良いのかが明確になります。

今回は、areaperiの相関が強いので、この変数に関する回帰分析を行っていきます。

実行方法

次のように、関数lm最初の引数formula2つ目の引数データセットを代入することで、簡単に単回帰分析を実行できます。

上の例では、periをareaで回帰しています。

これを統計学のモデルで表すと次のようになります。\begin{align}y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \ \ i = 1, \ldots, n,\end{align}ここに、\(y_i\)はperiを表す確率変数であり、\(y_i\sim N(\beta0 + \beta_1x_1, \sigma^2),\ \ \varepsilon_i \sim N(0, \sigma^2),\ i = 1, \ldots, n\)。

つまり、\(y_i\ (peri)\)と\(\beta_0 + \beta_1x_i\ (area),\ i = 1, \ldots, n\)との差が最小になるような\(\beta_0\)と\(\beta_1\)を計算しています。

最小二乗解である\(\beta_0\)と\(\beta_1\)については、プロットによる解釈で説明しています。

関数lmで得られた変数regressionの中身をみていきます。regressionを参照すると次のモデルと回帰係数が表示されます。

さらに詳細な結果が欲しい場合、関数summaryを用います。

上で与えた変数summaryRegを参照してみましょう。次のようにモデルや回帰係数に加え、残差(Std. Error)、t値(t value)、p値(Pr(>|t|))などの重要な値があることが分かります。

さらにCoefficientsの項目の変数areaの行に「***」の記号があります。

その下のSignif. codesにあるように、「***」p値が0.001未満であることが分かります。したがって、変数areaは有意(\beta_1 = 0でない)ことがいえます。

早速、これらの値を取りだしていきます。各検定結果はリストの要素として格納されているため、次のようにsummaryRegの後ろに$coefficientsを付けくわえることで、抽出可能です。

上の検定結果testResultsはデータフレームであるので、各列名を与えることで回帰係数やp値の列を取り出すことができます。

また、補足として有意な変数を取得したい場合、次のようにp値が有意水準(0.05)未満である行名を得ます。

また、目的変数\(Y_i\)に対する説明変数\(x_i\)の情報量の尺度である決定係数は次のようにして得られます。

決定係数R^2 = 0.6765168でるため、「モデルの当てはまりはまあまあである」ことが言えます。

解析結果の出力

解析結果をcsvファイルに出力してみましょう。

実行方法で得た検定結果をデータフレームにまとめ、write.csvを用いてcsvファイルに出力していきます。

回帰係数、残差、t値、p値、決定係数、修正済み決定係数を解析結果として出力してみます。

次のように関数cbindを用いて、testResultsと決定係数の列Rsquaredと修正済み決定係数の列adjRsquaredを結合させます。

testResultsを参照すると、次の解析結果の表が表示されます。

最後に、write.csvを用いて、このデータフレームtestResultsを出力します。

作業ディレクトリに単回帰分析.csvが出力され、次の画像のように単回帰分析の結果が保存されていることが確認できます。

単回帰分析結果

テストデータを用いた予測

回帰分析のモデルの使用例として、テストデータ等の予測があります。

モデルを作ることによって、未知のデータを予測できるようになります。簡単な実行例をみていきましょう。

テストデータとして、次のデータセットvalidationDataを用います。このデータは、さきほどのデータセットrockに正規乱数を加えたものとなります。

validationDataを参照すると、次のような乱数が加わったデータであることが確認できます。

実行方法で得たモデルregressionに、このテストデータの数値をあてはめたい場合、関数predictを用います。

最初の引数lmで得られたオブジェクト2つ目あてはめたいデータを代入することで予測することが可能です。

また、次のように予測結果をプロットすることができます。

プロット画面に次のような回帰直線が描画されます。青線がテストデータをモデルにあてはめた際の値を通る回帰直線で、黒い点がテストデータの実際の値になります。テストデータであるperiをある程度予測できていることが確認できました。

テストデータあてはめ

プロットによる解析結果の解釈

単回帰分析の幾何学的解釈をしていきます。

まず、install.packagesggplot2をインストールしましょう。このパッケージを用いることで各種統計解析の結果を簡単にプロットすることができます。

インストールしライブラリに追加したら、次のように関数ggplotを実行しましょう。

変数periとareaのデータのプロット及び回帰直線とその信頼区間の描画をすることができます。上を実行すると次の画像がプロットされます。

単回帰分析プロット

dataset$areaの各値\(x_i\)を\(y_i=\beta_0 + \beta_1 x_i = -471.4357929+ 0.4387544\times x_i ,\  i= 1,\ldots, n\)にあてはめた値を通る直線が上の赤い直線です。

また、濃いグレーの領域は\(y_i\)の95%信頼区間を表します。

重回帰分析

単回帰分析に続いて、R言語の重回帰分析の実行方法や解析結果の見方を紹介していきます。

単回帰分析のデータセットの用意で用いたデータセットrockを今回も使用します。

重回帰分析により、peri以外の全ての変数でperiを予測することが可能となります。

単回帰分析ではperiをareaで予測しましたが、他の変数を取り入れることでareaだけでは説明できない情報が加わり、予測精度が向上することができます(必ずしも向上しません)。

実行方法

重回帰分析は関数lmを用いることで実行できます。lm2つ目の引数datadatasetを代入し、1つ目の引数のformulaperi ~.を代入することで、peri以外の変数を説明変数とする重回帰分析を実行できます。

これは、次の統計学のモデルを意味します。\begin{align}Y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \cdots + \beta_px_{ip} + \varepsilon_i = \boldsymbol{x}_i^T\boldsymbol{\beta},\  \ i = 1, \ldots, n,\end{align}ここに\begin{align}\boldsymbol{x}_i &= \begin{pmatrix}1\\x_{i1}\\ \vdots \\ x_{ip}\end{pmatrix}\ \ \ \ \boldsymbol{\beta} = \begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_p\end{pmatrix}\end{align}であり、\(Y_i\sim N(\boldsymbol{x}_i^T\boldsymbol{\beta}, \sigma^2),\ \  \varepsilon_i \sim N(0, \sigma^2)\)である。

lmの第1引数のformulaを書き換えることで、いろいろなモデルを構築することが可能です。

すなわち、次の実行結果は上と同じです。

また、+演算子を用いることで次のように任意の説明変数を選択することも可能です。

これは、areashapeの2変数を説明変数とした重回帰分析となります。

また、補足として交互作用ありのモデルは次のように表現できます。

*演算子用いることで変数間の交互作用を含めることができます。

関数summaryを用いることで、解析結果得ることができます。