R言語

【R言語】データフレーム操作 作成・値の代入・行と列の追加と削除など

  1. HOME >
  2. R言語 >

【R言語】データフレーム操作 作成・値の代入・行と列の追加と削除など

スポンサーリンク

R言語を使う際に避けては通れない道であるデータフレームの操作について解説します。

データフレーム(data.frame)はデータセットを格納するための行列であり、データ解析をするうえで必要不可欠です。

この記事では、下記のデータフレームの基本的な操作:作成や値の参照・代入、行と列の追加や削除などを一通りまとめています。

この記事で学べる事

  • データフレームの作成
  • データフレームの参照
  • データフレームの要素の取得
  • データフレームの要素の変更
  • 行名・列名の変更
  • 行と列の追加・挿入・削除
  • データフレームの結合
  • データフレームの並び替え・ソート
  • データフレームの転置(行と列の逆転)
  • 欠測値の処理
  • 行と列の合計・割合・平均・分散
  • データフレームからピボットテーブルを作成
  • データフレームのファイルへの保存

データ整形する際に必要な知識を網羅することができます。

この記事で扱うプログラミングコードは以下からダウンロードすることができます。テンプレートとして使ってもらって構いません。

ベクトルの操作方法については次の記事でまとめています。

【R言語】ベクトルの操作 作成・値の代入・要素の追加など

R言語のベクトルの操作(作成や参照、代入、要素の追加など)をまとめました。 この記事では以下のベクトルに関する操作を実行例付きで分かりやすく解説しています。 この記事で学べる事 ベクトルの作成 ベクト ...

続きを見る

データフレームの操作について見ていきます。作成や値の参照・代入、行と列の追加や削除だけでなくデータフレームのソートや欠測値などについてもまとめています。

実行例を全部載せた結果、ものすごい量になってしまったので複数のページに分けて操作方法を解説しています。

各ページの内容

  • 1ページ目でデータフレームの作成と参照、要素の取得、要素の変更
  • 2ページ目で行名・列名の変更、行と列の追加と削除、データフレームの結合、並び替え
  • 3ページ目でデータフレームの転置、欠測値の処理、合計や割合など、ピボットテーブルの作成、データフレームの保存

を扱っています。

 

RStudioで解析したい方へ
¥3,278 (2022/06/02 22:52時点 | Amazon調べ)
\楽天ポイント5倍セール!/
楽天市場
\ポイント5%還元!/
Yahooショッピング

 

データフレームの作成

データフレームの作成するには関数data.frameを使います。

data.frameの引数を何も指定しない場合、0行0列のデータフレームのを作成することができます。

0行c列やr行0列のデータフレームする際は、関数matrixの引数nrowncolをそれぞれrとcに指定した後に、[, 0]や[0, 1]で0列または0行の行列を作ります。この行列をdata.frameに渡すことで作成することができます。

引数にベクトルを複数並べることで、そのベクトルを列にもつデータフレームを作成することが可能です。また、行列の形を保ったままデータフレームに変換することもできます。

データフレームの参照

データ解析をする前に、データセットがどのような変数から構成されているのか知りたいときがよくあります。

関数headとtailを用いることでデータフレームの先頭と末尾の要素を確認することが可能です。

また、次のように引数nを指定することで、どこまで参照するか指定することが可能です。

また、行名や列名を知りたいときはrownamesやcolnames、dimnamesを用います。以下、関数の概要です。

  • rownamesで行名
  • colnamesで列名
  • dimnamesで行名と列名のリスト

また、次はrownamescolnamesの実行例です。

これらの関数を使うことでデータフレームがどのような変数から構成されているのか把握することができます。

データフレームの要素の取得

データフレームの要素の参照方法をいくつかに分けて紹介します。

後の要素の変更および代入で紹介しますが、データフレームの要素の参照には次の3通りの方法があります。

  • インデックスで指定する方法
  • 行名や列名で指定する方法
  • 真偽値(logical型)で指定する方法

それぞれの利点を実行例とともに説明していきます。

インデックスで指定

まず、一番簡単な指定方法であるインデックスについて見ていきます。

データフレームdfの要素を参照する方法を次のリストにまとめました。

  • 5行2列の要素を参照したいときは、df[5, 2]
  • 3行目を取得したいときは,df[3, ]
  • 3から5行目を取得したいときは、df[seq(3, 5), ]
  • 2列目を取得したいときは、df[, 2]
  • 1列目と2列目を取得したいときは、df[, c(1, 2)]
  • 3から5行目かつ1と2行目を取得したいときは、df1[seq(3, 5), c(1, 2)]

上に示すように、行や列単位で取得したいときは、行や列に対応する要素を指定しないで参照したい行や列のインデックスを与えれば大丈夫です。

また、複数の行を取得したいときは、ベクトルを与えてあげます。

さらに、行と列にインデックスのベクトルを与えることで、データフレームのその行と列が交差する部分を取得することができます。

インデックスで指定するのは簡単ですが、例えば解析するデータセットの列の順番が変わったり行の順番が変わってしまうと、いちいち書き直さなければいけないという手間がかかります。

また、全てインデックスで指定してしまうとプログラミングコードがマジックナンバーだらけになってしまい、何を描いているのか分かりません。

コードの質的にもよろしくないので、インデックスで指定する方法はあまりお勧めしません。

この次に紹介する名前で指定する方法真偽値で指定する方法をお勧めします。

行名や列名で指定

続いて行名や列名で指定する方法について見ていきます。データセットに行名や列名があれば、上のインデックスで指定する方法を頼らずにすべての操作が可能です。

名前をプログラミングコードで書いているので、どこで何の処理を行っているのかパッと見分かりやすく、インデックスよりおススメです。この指定方法に慣れましょう。

行名や列名でデータフレームの要素を参照する方法を以下にまとめます。

  • 行名"id:1"の行かつ列名"letters"を参照したいときは、df["id:1", "letters"]
  • 行名"id:1"の行を取得したいときは、df["id:1", ]
  • 行名"id:1"から"id:5"の行を取得したいときは、df[paste0("id:", seq(1, 5)), ]
  • 列名"letters"の列を取得したいときは、df[, "letters"]
  • 行名"id:1"から"id:5"の行かつ列名"numbers"と"letters"の列を取得したいときは、df[paste0("id:", seq(1, 5)), c("numbers", "letters")]
  • 3から5行目かつ1と2行目を取得したいときは、df1[seq(3, 5), c(1, 2)] 

インデックスのように参照したい行名や列名を与えることで参照が可能です。行名や列名1つのみでなく、ベクトルを与えることで複数の行と列を取得することもできます。

列に関してはdf$lettersのように、データフレームの後ろに$を付けて列を取得することもできます。

真偽値で指定

データフレームのある条件を満たす要素を参照したいときに、真偽値で指定する方法が凄い便利です。

logical型のベクトルをデータフレームの大括弧の行と列に入れることで、logical型のTRUEの部分が交差する要素を参照することができます。何を言っているのか分からないと思うので、次の具体例で説明します。

2行目と3行目でlogical型のベクトルを与えています。データフレームのこのベクトルを与えると、1から5行目かつ1列目と2列目を取得することができました。

このようにTRUEであるインデックスの要素を参照することができます。これを用いることで次の特定の条件を満たすデータフレームの要素の参照が可能になります。この真偽値による指定は、例えばデータフレームにnumeric型の変数があって、「ある数値に等しい」または「a以上b以下」である行を取得したい場合に重宝します。

  • 列numbersが5である行を取得したいときは、df[df$numbers == 5, ]
  • numbersが3から7かつlettersが"d"または"f"である行を取得するときは、df[df1$numbers >= 3 & df1$numbers <= 7 & df1$letters == "d" | df1$letters == "f", ]
  • 列名が"logicals"でない列を取得したいときは、df1[, colnames(df1) != "logicals"]
  • 列名に"l"が含まれる列を取得するときは、df1[, grepl("l", colnames(df1))