R言語入門　データフレーム練習【初心者向け】

こんにちはusagi-sanです。

この記事では、R言語のデータフレームに関して重要な知識を紹介します。

データフレームの操作はデータ解析や統計解析をするうえで、絶対に必要になってくるので参考になったらうれしいです。

今回用いるプログラミングコードは下のダウンロードリンクからも入手できます。

データフレーム練習　プログラミングコード　Rスクリプト

1 ファイル 1.95 KB

ダウンロード

また、データフレームの操作をすべてまとめた記事も書きました。データフレームの詳細については次の記事を参照。

: 【R言語】データフレーム操作　作成・値の代入・行と列の追加と削除など
R言語を使う際に避けては通れない道であるデータフレームの操作について解説します。データフレーム（data.frame）はデータセットを格納するための行列であり、データ解析をするうえで必要不可欠です。 ...
続きを見る

データフレームの練習

データフレームの操作

まず練習用のデータとして、R言語にデフォルトで入っているirisというアヤメのデータを用います。

次のコードでデータフレームirisをdataに代入します。

data <- iris

1	data <- iris

次に、このデータフレームの要素を抽出していきます。

データフレームから任意のデータを抽出できるようになるまでが、最初の難関だと思います。

data[,colnames(data)[1]] #Sepal.Lengthのデータ
setdiff(colnames(data), "Species") #Species以外のデータ
data[data[,"Species"] == "setosa",]#setosa種のみのデータ

data2 <- data[,setdiff(colnames(data), "Species")]#Species以外のデータ

data[,colnames(data)[1]] #Sepal.Lengthのデータ

setdiff(colnames(data), "Species") #Species以外のデータ

data[data[,"Species"] == "setosa",]#setosa種のみのデータ

data2 <- data[,setdiff(colnames(data), "Species")]#Species以外のデータ

1行目のようにして、data[,列名]でデータフレームの列を特定の列名で指定すると、

その列名のベクトルを抽出することができます。

2行目では、dataの列名のうち"Species"以外の列名をsetdiff(データフレーム,列名)で得ています。

3行名では、列名"Speciess"が"setosa"であるデータの行を取り出しています。

5行目では2行目で指定した"Speicise"以外の列のデータフレームを取得しています。

注意として、通常データフレームはdata[a,b]やdata[a,]などで指定する場合が多いですが、

データ解析のデータを整形するときに、上記の3行目の操作をする場合が多いです。

データフレームの操作によく用いる関数

上では説明していませんでしたが、データフレームを操作するときに便利である関数を以下に使いかたとともにまとめておきました。

#データフレームに用いる関数
nrow(data)  #データフレームの行数
ncol(data)  #データフレームの列数
dim(data)   #データフレームの行、列
　
rownames(data)  #データフレームの行名
colnames(data)  #データフレームの列名

intersect(c(1,2,3,4,5), c(3,4,5))
setdiff(c(1,2,3,4,5), c(3,4,5))

#データフレームに用いる関数

nrow(data) #データフレームの行数

ncol(data) #データフレームの列数

dim(data) #データフレームの行、列

rownames(data) #データフレームの行名

colnames(data) #データフレームの列名

intersect(c(1,2,3,4,5), c(3,4,5))

setdiff(c(1,2,3,4,5), c(3,4,5))

下の表に関数の意味を示し、上でその使いかたを示しました。

nrow(x)	データフレームxの行数を返す
ncol(x)	データフレームxの列数を返す
dim(x)	データフレームxの行数、列数を返す
rownames(x)	データフレームxの行名を返す
colnames(x)	データフレームxの列数を返す
intersect(x,y)	ベクトルxとベクトルyの両方に含まれている要素を返す
setdiff(x,y)	ベクトルxからベクトルyにある要素を取り除く

データフレームの結合

複数のデータフレームまたはベクトルの行方向と列方向への結合は、集計表や分割表を作る際に必須となっていきます。

R言語では以下のように、rbind(a,b),cbind(a,b)を用いることで、データフレームやベクトルを結合させることができます。

#データフレームの結合
std_Sepal.Length <- (data2$Sepal.Length - mean(data2$Sepal.Length)) / sqrt(var(data2$Sepal.Length))
data2 <- cbind(data2, std_Sepal.Length)

mean_data <- round(apply(data2, 2, mean), 5) #Sepal.Length  Sepal.Width Petal.Length  Petal.Widthの平均値
var_data <- round(apply(data2, 2, var), 5) #不偏分散

data2 <- rbind(data2, mean_data, var_data) #平均、分散の行を結合する
rownames(data2) <- c(1:nrow(data), "mean","var")

data.frame(data$Sepal.Length, data$Petal.Length)  #data$Sepal.Length, data$Petal.Lengtからなるでーれフレームを作成

merge(data[1:50,],data2[46:100,])  #dataとdata2の共通部分を返す
merge(data[1:50,],data2[46:100,], all = T)  #dataとdata2を併合する

#データフレームの結合

std_Sepal.Length <- (data2$Sepal.Length - mean(data2$Sepal.Length)) / sqrt(var(data2$Sepal.Length))

data2 <- cbind(data2, std_Sepal.Length)

mean_data <- round(apply(data2, 2, mean), 5) #Sepal.Length Sepal.Width Petal.Length Petal.Widthの平均値

var_data <- round(apply(data2, 2, var), 5) #不偏分散

data2 <- rbind(data2, mean_data, var_data) #平均、分散の行を結合する

rownames(data2) <- c(1:nrow(data), "mean","var")

data.frame(data$Sepal.Length, data$Petal.Length) #data$Sepal.Length, data$Petal.Lengtからなるでーれフレームを作成

merge(data[1:50,],data2[46:100,]) #dataとdata2の共通部分を返す

merge(data[1:50,],data2[46:100,], all = T) #dataとdata2を併合する

2,3行目ではdata2の列名"Sepal.Length","Sepal.Width","Petal.Length","Petal.Width"の期待値と不偏分散を求めています。

関数applyについては今度、書こうと思います。

5行目では、先ほど求めた期待値のベクトル、分散のベクトルを、行方向にdata2の下に結合しています。

また7行目では、列名"Sepal.Length"を標準化したデータを求めています。"Sepal.Length"の各データから期待値を引き、分散の平方根で割ると標準化データが得られます。

9行目では、標準化データを、列方向にdata2の右に結合しています。

11行目では、data.frame（a,b)を用いてもデータフレームaとbを横方向に結合することが可能です。

13,14行目ではmerge(a,b)を使ったデータフレームの併合を紹介しています。引数allをTRUEにすることで、併合（結合）を行うことができます。引数を指定しない場合、aとbの共通する部分を返します。

以下にデータの結合に用いる関数をまとめました。

rbind(x,y)	データフレームxとyを縦方向に結合
cbind(x,y)	データフレームxとyを横方向に結合
data.frame(x,y)	データフレームxとyを横方向に結合
merge(x,y,all=bool)	データフレームxとyを併合する。allがTRUEの場合xとyが併合される。FALSEの場合xとyの共通部分を返す

ベクトルの要素の並び替え

データフレームのある列の要素を昇順や降順で並び替えたい場合、sort(ベクトル)、rev(ベクトル)やorder(ベクトル)が役に立ちます。

データフレームの列のソートの例として、次のコードを書きました。

#データフレームの並び替え
sort(data2$Sepal.Length)  #昇順
rev(data2$Sepal.Length)   #降順

order(data2$Sepal.Length, decreasing = F)  #昇順
order(data2$Sepal.Length, decreasing = T)  #降順

#データフレームの並び替え

sort(data2$Sepal.Length) #昇順

rev(data2$Sepal.Length) #降順

order(data2$Sepal.Length, decreasing = F) #昇順

order(data2$Sepal.Length, decreasing = T) #降順

2行目では、データフレームのdata2のうち列名が"Sepal.Length"であるベクトルをsort(ベクトル)で昇順に並べています。

3行目では、rev(ベクトル)を用いて、降順に並べています。

5,6行目ではorder(ベクトル,真偽値)を用いた昇順、降順の例を示しました。

引数decreasingをTRUEにすることで、降順で並べることが可能となります。

以下に関数をまとめます。

sort(x)	ベクトルx昇順に並べる
rev(x)	ベクトルxを降順に並べる
order(x, decreasing = bool)	ベクトルxを引数decreasingがTRUEのとき降順に、FALSEのとき昇順に並べる

データ整形の例

先ほどのirisのデータで分割表を作ってみましょう。

"Sepal.Length"の値が平均より大きいか小さいかと、"Species"が"setosa"かそれ以外かで分割表を作ってみます。

分割表を作ってくれる便利なライブラリもありますが、ここでは練習として今まで使った関数を用いて作成してます。

data_11 <- data[data$Sepal.Length > as.list(mean_data)$Sepal.Length & data$Species== "setosa",]
data_12 <- data[data$Sepal.Length <= as.list(mean_data)$Sepal.Length & data$Species== "setosa",]
data_21 <- data[data$Sepal.Length > as.list(mean_data)$Sepal.Length & data$Species!= "setosa",]
data_22 <- data[data$Sepal.Length <= as.list(mean_data)$Sepal.Length & data$Species!= "setosa",]

table <- data.frame(matrix(c(nrow(data_11),nrow(data_21),nrow(data_12),nrow(data_22)), nrow =2)) 

rownames(table) <- c("Speciesがsetosaである","Speciesがsetosaでない")
colnames(table) <- c("Sepal.Lengthが平均値より大きい","Sepal.Lengthが平均値以下")
table <- rbind(table, 総計=apply(table,2,sum))
table <- cbind(table, 総計=apply(table,1,sum))

data_11 <- data[data$Sepal.Length > as.list(mean_data)$Sepal.Length & data$Species== "setosa",]

data_12 <- data[data$Sepal.Length <= as.list(mean_data)$Sepal.Length & data$Species== "setosa",]

data_21 <- data[data$Sepal.Length > as.list(mean_data)$Sepal.Length & data$Species!= "setosa",]

data_22 <- data[data$Sepal.Length <= as.list(mean_data)$Sepal.Length & data$Species!= "setosa",]

table <- data.frame(matrix(c(nrow(data_11),nrow(data_21),nrow(data_12),nrow(data_22)), nrow =2))

rownames(table) <- c("Speciesがsetosaである","Speciesがsetosaでない")

colnames(table) <- c("Sepal.Lengthが平均値より大きい","Sepal.Lengthが平均値以下")

table <- rbind(table, 総計=apply(table,2,sum))

table <- cbind(table, 総計=apply(table,1,sum))

上のコードを実行することで下の表の分割表を作成することができます。

1~4行目で分割表の4つの要素に当てはまるデータフレームを抽出しています。

6行目にdata_11~data_22の要素の数をデータフレームに変換し2×2の表を作っています。

8,9行目に行名、列名を指定し、10行目で、apply関数を用いて行の和をとりrbindで先ほどの2×2の表の下に結合させています。

最後に列の和をとりcbindで右に結合させることで、分割表が完成します。

	Sepal.Lengthが平均値より大きい	Sepal.Lengthが平均値以下	総計
Speciesがsetosaである	0	50	50
Speciesがsetosaでない	70	30	100
総計	70	80	150

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-R言語
-R言語, プログラミング

T より:
2022年12月27日 4:45 PM
記事の投稿お疲れさまです。勉強させていただいてます。
「データ整形の例」のプログラムコードの8行目は
rownames(table) <- c("SpeciesがLengthである","SpeciesがLengthでない")
とありますが、
rownames(table) <- c("Speciesがsetosaである","Speciesがsetosaでない")
ではないかと思います。
よろしくお願いします。
返信
- usagi-san より:
  2022年12月28日 4:33 PM
  ありがとうございます。
  そうですね。rownames(table) <- c("Speciesがsetosaである","Speciesがsetosaでない")の間違いです。記事とファイルを修正しておきます。ブログ始めたての頃の記事だから恥ずかしい・・・
  返信

comment コメントをキャンセル

: R言語
【R言語】相関係数の検定・無相関性の検定　関数cor.testの使い方
R言語で相関係数の検定を行う方法を紹介します。この記事では、t分布に基づく無相関性の検定を実行する関数やその使い方について見ていきます。フィッシャーのz変換を用いた相関係数の検定、差の検定について ...

: R言語
【R言語】主成分分析　変数の寄与率の計算や次元の削減
R言語で主成分分析を実行する関数やその実行例を解説していきます。多変量解析において各変数の寄与率を調べるためや多変量データの要約に用いられる主成分分析をR言語で実行する流れを詳しくみていきます。実 ...

: R言語
R言語　解析に用いるファイルを自動で整理する関数【フォルダーの作成不要】
こんにちは、usagi-sanです。今回は統計解析で用いる解析データ（csvやexcel）、そのデータを解析するプログラミングファイル（ファイル.R）、統計解析などの結果のファイル（csvやexce ...

: R言語
【R言語】関数uniqueを使ったデータの重複削除
R言語でデータの重複削除を行う方法を紹介します。重複しているデータの削除や、重複しているかを判定する関数とその使い方について解説します。この記事では以下の内容が学べます。ベクトルやデータフレーム ...

: R言語
【R言語】母比率の検定・母比率の差の検定
R言語で母比率の検定を実行する方法を紹介します。 R言語ではt検定などと同様に、簡単に比率に関する検定を実行することが可能です。今回は、母比率の検定に関する関数の説明やその実行例をまとめました。こ ...

重相関係数

R言語　解析結果を自動で色塗りできる関数【エクセル操作不要】

R言語入門 データフレーム練習【初心者向け】

【R言語】データフレーム操作 作成・値の代入・行と列の追加と削除など