【R言語】相関係数について　関数corの使い方

R言語で相関係数を出力する例を紹介します。

相関係数の出力だけでなく、相関係数と散布図の関係についてもみていきます。

実際には2つのデータ間に明らかな関係があるのに相関係数が0に近く相関がほとんどないと解釈できてしまう例なども触れていきます。

R言語　相関係数と散布図

1 ファイル 1.04 KB

ダウンロード

ピアソンの積率相関係数については以下の記事を参照。

: 【統計学】相関係数・ピアソンの積率相関係数
相関係数とピアソンの積率相関係数について解説する。相関係数およびピアソンの積率相関係数の定義を与え、その性質や幾何学的解釈などをみていく。相関係数の検定については以下の記事を参照されたい。相関係 ...
続きを見る

また、相関係数の検定については以下を参照。

: 【統計学】相関係数の検定・無相関性の検定
相関係数の検定を解説する。相関係数の検定の検定統計量や棄却域の導出について解説する。相関係数の分布の導出を行い、検定統計量をどのように構成すればよいかみていく。相関係数については以下の記事を参照 ...
続きを見る

: 【R言語】相関係数の検定・無相関性の検定　関数cor.testの使い方
R言語で相関係数の検定を行う方法を紹介します。この記事では、t分布に基づく無相関性の検定を実行する関数やその使い方について見ていきます。フィッシャーのz変換を用いた相関係数の検定、差の検定について ...
続きを見る

標本相関係数（ピアソンの積率相関係数）

よくデータ解析で耳にする「相関係数」とはピアソンの積率相関係数のことを指します。相関係数の検定などではまた意味合いが変わりますが、2つのデータ間の相関を計算したい場合は次の標本相関係数（ピアソンの積率相関係数）を用います。\begin{align} r_{x, y} = \cfrac{\sum_{i = 1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i = 1}^n(x_i - \bar{x})^2 \sum_{i = 1}^n(y_i - \bar{y})^2}}.\end{align}$(x_1, y_1), (x_2, y_2), \ldots, (x_n , y_n)$は2変数の標本です。

上の標本相関係数が2つのデータ間の相関の尺度として用いられる理由として、次のように標本相関係数$r_{x, y}$は$x$と$y$の線形相関の強さを表すからです。

r_{x, y}が正であるときは、2つのデータ$x$と$y$の間に正の相関があり、$x$が大きいとき$y$も大きくなる。
逆に$r_{x, y}$が負であるときは、2つのデータ$x$と$y$の間に負の相関があり、$x$が大きくなると$y$は小さくなる。

このような理由から、相関の尺度としてよく用いられます。

標本相関係数の計算例

Rで標本相関係数を算出する例を以下にまとめました。標本相関係数がどのようなものなのか分かりやすいように、2変量正規分布（山みたいな分布）の確率密度のプロットと、そこから発生させた乱数の標本相関係数と散布図を載せています。

また、実際の解析にも応用できるように、Rの標準データセットを用いた標本相関係数の計算例やプロットも解説しています。

2変量正規分布からの乱数

2変量正規分布から乱数を発生させて、その標本相関係数および散布図をプロットするには次のように実行します。

パッケージmvtnormの関数dmvnormを用いることで多変量正規分布の確率密度が得られます。

次を実行することで次のパラメータの多変量正規分布の確率密度を描くことが可能です。\begin{align}\boldsymbol{\mu} &= \begin{pmatrix}0 \\ 0\end{pmatrix},\\ \boldsymbol{\Sigma} &= \begin{pmatrix}1 & \rho \\ \rho & 1\end{pmatrix}.\end{align}関数outerでxとy軸を-3から3まで0.1での動かしたときの確率密度dmvnormを計算し確率密度を描いています。

library(mvtnorm)
n <- 20
mu <- c(0, 0)
rhos <- c(0.01, 0.5, 0.8, 0.99) 

mkMatrix <- function(rho) {
  return(matrix(c(1, rho, rho, 1), ncol = 2))
}

#確率密度
par(mfrow = c(2, 2)) 
par(mar = c(4, 3, 1, 1))
par(oma = c(0, 0, 0, 0))
par(mgp = c(2, 1, 0))
for (rho in rhos) {
  Sigma <- mkMatrix(rho)
  x <- seq(-3, 3, 0.1)
  y <- x
  f <- function(u, v) {
    c(dmvnorm(matrix(c(u, v), ncol = 2), mu, Sigma))
  }
  density <- outer(x, y, f)
  persp(x, y, density, theta = 0, phi = 60, expand = 0.5, 
        xlim = c(-3, 3), ylim = c(-3, 3), sub =  paste0("ρ=", rho))
}

library(mvtnorm)

n <- 20

mu <- c(0, 0)

rhos <- c(0.01, 0.5, 0.8, 0.99)

mkMatrix <- function(rho) {

return(matrix(c(1, rho, rho, 1), ncol = 2))

}

#確率密度

par(mfrow = c(2, 2))

par(mar = c(4, 3, 1, 1))

par(oma = c(0, 0, 0, 0))

par(mgp = c(2, 1, 0))

for (rho in rhos) {

Sigma <- mkMatrix(rho)

x <- seq(-3, 3, 0.1)

y <- x

f <- function(u, v) {

c(dmvnorm(matrix(c(u, v), ncol = 2), mu, Sigma))

}

density <- outer(x, y, f)

persp(x, y, density, theta = 0, phi = 60, expand = 0.5,

xlim = c(-3, 3), ylim = c(-3, 3), sub = paste0("ρ=", rho))

}

確率密度

左上から$\rho = 0.1, 0.5, 0.8, 0.99$の多変量正規分布の確率密度関数がプロットされます。相関係数$\rho$が小さくなるにつれて円上に分布し、高くなるにつれて$y = x$の直線の周りに分布することが分かります。

次に標本相関係数と散布図の描き方についてみていきます。

標本相関係数は次の関数を用いることで計算することができます。

cor(x, y = NULL, use = "everything", method = c("pearson", "kendall", "spearman"))

関数corの引数
x	numeric型のベクトルまたは行列、データフレーム。
y	xと同じ次元のベクトルまたは行列、データフレーム。デフォルトでy=x。
use	character型。欠測値がある場合にどのように共分散を計算するか決める。"everything", "all.obs", "complete.obs", "na.or.complete", "pairwise.complete.obs"。
method	character型。どの標本相関係数を計算するか決定する。"pearson"でpearson、"kendall"でKendall、"spearman"でSpearmanの標本相関係数を計算できる。

次を実行することで、下の画像のような$\rho= 0.1, 0.5, 0.8, 0.99$の多変量正規分布からの乱数をプロットすることができます。

#散布図
par(mfrow = c(2, 2)) 
par(mar = c(4, 3, 1, 1))
par(oma = c(0, 0, 0, 0))
par(mgp = c(2, 1, 0))

for (rho in rhos) {
  Sigma <- mkMatrix(rho)
  samples <- rmvnorm(n, mu, Sigma)
  x <- samples[, 1]
  y <- samples[, 2]
  r <- cor(x, y)
  plot(x, y, sub = paste0("r=", round(r, 5)))
}

#散布図

par(mfrow = c(2, 2))

par(mar = c(4, 3, 1, 1))

par(oma = c(0, 0, 0, 0))

par(mgp = c(2, 1, 0))

for (rho in rhos) {

Sigma <- mkMatrix(rho)

samples <- rmvnorm(n, mu, Sigma)

x <- samples[, 1]

y <- samples[, 2]

r <- cor(x, y)

plot(x, y, sub = paste0("r=", round(r, 5)))

}

散布図1

相関係数$\rho$が高くなるにつれて$y = x$の直線の周りに標本が集中することが確認できます。また、標本相関係数$r$も相関係数$\rho$に近い値をとっており、ちゃんと推定できていることがわかります。

特殊な例

次に、特殊な例をいくつか紹介します。

次を実行すると、下の画像のような標本相関係数$r$が$1$または$-1$となる散布図と、2変数間に関連性があるのにもかかわらず標本相関係数が$0$に近くなる散布図を描くことができます。

#r=1, r=-1の例
par(mfrow = c(2, 2))
par(mar = c(4, 3, 1, 1))
par(oma = c(0, 0, 0, 0))
par(mgp = c(2, 1, 0))

signs <- c(1, -1)
for (sign in signs) {
  x <- runif(n, 0, 2)
  y <- sign * x
  r <- cor(x, y)
  plot(x, y, sub = paste0("r=", round(r, 5)))
}

#r=0でも2変量間の関係がある例
x <- runif(n, -0.5, 0.5)
radius <- 0.5
y <- sapply(x, function(z) {
  (sqrt(- 4 * (z^2  - radius^2))) / 2
})

r <- cor(x, y)
plot(x, y, sub = paste0("r=", round(r, 5)))

#r=1, r=-1の例

par(mfrow = c(2, 2))

par(mar = c(4, 3, 1, 1))

par(oma = c(0, 0, 0, 0))

par(mgp = c(2, 1, 0))

signs <- c(1, -1)

for (sign in signs) {

x <- runif(n, 0, 2)

y <- sign * x

r <- cor(x, y)

plot(x, y, sub = paste0("r=", round(r, 5)))

}

#r=0でも2変量間の関係がある例

x <- runif(n, -0.5, 0.5)

radius <- 0.5

y <- sapply(x, function(z) {

(sqrt(- 4 * (z^2 - radius^2))) / 2

})

r <- cor(x, y)

plot(x, y, sub = paste0("r=", round(r, 5)))

散布図2

上の2つの散布図から分かるように、標本相関係数$r$が$1$または$-1$になるのは、$x_i = y_i,\ i = 1, 2, \ldots, n$を満たす場合であることが分かります。

一番下の散布図は中心$(0, 0)$、半径$0.5$の半円上に一様乱数を発生させた例です。2変数は円上に分布するという関係があるのにもかかわらず、標本相関係数は$r = 0.09676$となっており、2変数間の相関は小さいという解釈ができてしまいます。

このように、ピアソンの積率相関係数は2変数間の線形相関の尺度であるため、2変数間に比例関係以外の関係性がある場合注意が必要です。

Rの標準データセットを用いた例

最後に、Rの標準データセットを用いた相関係数の計算例と散布図のプロット例を紹介します。

irisを用いた例

データセットirisの散布図と標本相関係数の算出の例をまずみていきます。

関数plotを用いることで、簡単に各変数間の12通りの散布図を描くことが可能です。

library(ggplot2)
library(GGally)
dataset <- iris
plot(dataset[, -seq_len(ncol(dataset))[colnames(dataset) == "Species"]])

library(ggplot2)

library(GGally)

dataset <- iris

plot(dataset[, -seq_len(ncol(dataset))[colnames(dataset) == "Species"]])

iris散布図

パッケージGGallyを用いると、次のような散布図を作成することも可能です。

ggpairs(dataset, columns = seq_len(ncol(dataset) - 1), aes(color = Species, alpha = 0.5),
        lower = list(continuous = "smooth"))

1 2	ggpairs(dataset, columns = seq_len(ncol(dataset) - 1), aes(color = Species, alpha = 0.5), lower = list(continuous = "smooth"))

iris散布図GGally

関数corを用いて各変数間の12通りの標本相関係数の計算を行うことができますが、少々面倒です。関数corではなくcov2corを用いると便利です。この関数は標本共分散行列を相関行列に変換してくれます（標本共分散行列の対角成分が1になるように変換してくれます）。以下、標本相関係数の計算例です。

> cor(dataset$Sepal.Length, dataset$Sepal.Width)
[1] -0.1175698
> cor(dataset$Petal.Length, dataset$Petal.Width)
[1] 0.9628654
> cov2cor(var(dataset[, -seq_len(ncol(dataset))[colnames(dataset) == "Species"]]))
             Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

> cor(dataset$Sepal.Length, dataset$Sepal.Width)

[1] -0.1175698

> cor(dataset$Petal.Length, dataset$Petal.Width)

[1] 0.9628654

> cov2cor(var(dataset[, -seq_len(ncol(dataset))[colnames(dataset) == "Species"]]))

Sepal.Length Sepal.Width Petal.Length Petal.Width

Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411

Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259

Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654

Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000

anscombeを用いた例

次にanscombeを用いた例を紹介します。

このデータセットは、母集団分布が異なる場合でも標本相関係数すなわち回帰曲線が一致してしまう例をあげています。

単に相関係数を計算して2変数間の関連性について言及するのではなく、母集団分布がどうなっているのかまで確認する必要があることを説明するために作られたデータセットとなります。

> dataset <- anscombe
> head(dataset)
  x1 x2 x3 x4   y1   y2    y3   y4
1 10 10 10  8 8.04 9.14  7.46 6.58
2  8  8  8  8 6.95 8.14  6.77 5.76
3 13 13 13  8 7.58 8.74 12.74 7.71
4  9  9  9  8 8.81 8.77  7.11 8.84
5 11 11 11  8 8.33 9.26  7.81 8.47
6 14 14 14  8 9.96 8.10  8.84 7.04

> dataset <- anscombe

> head(dataset)

x1 x2 x3 x4 y1 y2 y3 y4

1 10 10 10 8 8.04 9.14 7.46 6.58

2 8 8 8 8 6.95 8.14 6.77 5.76

3 13 13 13 8 7.58 8.74 12.74 7.71

4 9 9 9 8 8.81 8.77 7.11 8.84

5 11 11 11 8 8.33 9.26 7.81 8.47

6 14 14 14 8 9.96 8.10 8.84 7.04

さっそく、anscombeの標本相関係数の計算をしてみましょう。

> cor(dataset$x1, dataset$y1)
[1] 0.8164205
> cor(dataset$x2, dataset$y1)
[1] 0.8164205
> cor(dataset$x3, dataset$y1)
[1] 0.8164205
> cor(dataset$x4, dataset$y4)
[1] 0.8165214
> cov2cor(var(dataset))
           x1         x2         x3         x4         y1         y2         y3         y4
x1  1.0000000  1.0000000  1.0000000 -0.5000000  0.8164205  0.8162365  0.8162867 -0.3140467
x2  1.0000000  1.0000000  1.0000000 -0.5000000  0.8164205  0.8162365  0.8162867 -0.3140467
x3  1.0000000  1.0000000  1.0000000 -0.5000000  0.8164205  0.8162365  0.8162867 -0.3140467
x4 -0.5000000 -0.5000000 -0.5000000  1.0000000 -0.5290927 -0.7184365 -0.3446610  0.8165214
y1  0.8164205  0.8164205  0.8164205 -0.5290927  1.0000000  0.7500054  0.4687167 -0.4891162
y2  0.8162365  0.8162365  0.8162365 -0.7184365  0.7500054  1.0000000  0.5879193 -0.4780949
y3  0.8162867  0.8162867  0.8162867 -0.3446610  0.4687167  0.5879193  1.0000000 -0.1554718
y4 -0.3140467 -0.3140467 -0.3140467  0.8165214 -0.4891162 -0.4780949 -0.1554718  1.0000000

> cor(dataset$x1, dataset$y1)

[1] 0.8164205

> cor(dataset$x2, dataset$y1)

[1] 0.8164205

> cor(dataset$x3, dataset$y1)

[1] 0.8164205

> cor(dataset$x4, dataset$y4)

[1] 0.8165214

> cov2cor(var(dataset))

x1 x2 x3 x4 y1 y2 y3 y4

x1 1.0000000 1.0000000 1.0000000 -0.5000000 0.8164205 0.8162365 0.8162867 -0.3140467

x2 1.0000000 1.0000000 1.0000000 -0.5000000 0.8164205 0.8162365 0.8162867 -0.3140467

x3 1.0000000 1.0000000 1.0000000 -0.5000000 0.8164205 0.8162365 0.8162867 -0.3140467

x4 -0.5000000 -0.5000000 -0.5000000 1.0000000 -0.5290927 -0.7184365 -0.3446610 0.8165214

y1 0.8164205 0.8164205 0.8164205 -0.5290927 1.0000000 0.7500054 0.4687167 -0.4891162

y2 0.8162365 0.8162365 0.8162365 -0.7184365 0.7500054 1.0000000 0.5879193 -0.4780949

y3 0.8162867 0.8162867 0.8162867 -0.3446610 0.4687167 0.5879193 1.0000000 -0.1554718

y4 -0.3140467 -0.3140467 -0.3140467 0.8165214 -0.4891162 -0.4780949 -0.1554718 1.0000000

いくつかの標本相関係数が一致しているのが分かります。標本相関係数一致した変数の散布図を次のように並べてみます。

anscombe散布図

上記のように2変数間に比例関係が無い場合でも標本相関係数が同じになってしまう例が存在します。全く異なる母集団分布をもつ変数間の標本相関係数を比較する際には注意する必要があることが上のグラフから分かります。比例関係でないのに高い相関を持つという間違った結論を出してしまうことがあります。

まとめ

R言語で相関係数を計算する例を紹介しました。

corを用いることで簡単に2つのデータ間の相関係数（ピアソンの積率相関係数）を算出することが可能です。

また、plotを用いることで散布図を作成することができ、2つ以上の変数の場合でも簡単に複数の散布図を作成することができます。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-R言語
-R言語, プログラミング, 統計学, 統計解析

comment コメントをキャンセル

: R言語
【R言語】母分散の信頼区間の計算
R言語で母分散の信頼区間を算出する関数やその実行例について解説します。実行例では、データセットから母分散の信頼区間を計算するだけでなく、母分散の信頼区間の意味を図で説明します。この記事で扱うプログ ...

: R言語
R言語　データ整形　numericやfactorの操作【初心者向け】
こんにちは、usagi-sanです。今回は前回の記事に続いて、データ整形の練習をしていきます。前回は教育用データセットを扱いやすい形に整えました。今回はデータフレームのnumeric型のデータやf ...

: R言語
【R言語】Rのインストール方法　Rの始め方
統計解析に特化したプログラミング言語であるR言語のインストールの手順を解説します。画像付きで分かりやすくインストールの手順をまとめました。この記事ではWindowsとmacOS向けにインストール方 ...

: R言語
【R言語】openxlsxを使ったエクセルファイルの入力・出力
R言語でエクセルファイルを操作する方法を解説します。ここではパッケージopenxlsxを使ってエクセルファイルの入力や出力を行っていきます。エクセルファイル中のデータセットの読み込みから、フォント ...

: R言語
【R言語】1標本t検定テンプレートスクリプト
R言語の1標本t検定のテンプレートファイルを紹介します。 t検定のスクリプトファイルは以下のgithubまたは、ダウンロードリンクより入手できます。 t検定の実行したいときのテンプレートファイルとして ...

【統計学】ベルヌーイ分布の確率質量関数

【計算フォーム】t分布の確率点　下側確率点の算出

【R言語】相関係数について 関数corの使い方

【統計学】相関係数・ピアソンの積率相関係数

【統計学】相関係数の検定・無相関性の検定

【R言語】相関係数の検定・無相関性の検定 関数cor.testの使い方

標本相関係数（ピアソンの積率相関係数）

標本相関係数の計算例

2変量正規分布からの乱数

特殊な例

Rの標準データセットを用いた例

irisを用いた例

anscombeを用いた例

まとめ

【R言語】相関係数について　関数corの使い方

【R言語】相関係数の検定・無相関性の検定　関数cor.testの使い方