自作アプリケーション Data-Cleansing App

  1. HOME >

自作アプリケーション Data-Cleansing App

こんにちは、usagi-sanです。

個人でアプリケーションを作ってみました。

今回紹介するアプリケーションは、以前紹介したパッケージUsagiSanの関数dataCleanserをWEBアプリに拡張したものとなります。アプリではなく関数を使いたい方は、次の記事でパッケージインストール方法や関数の使いかたを読んでください。

R言語 自作パッケージ UsagiSan

こんにちは、usagi-sanです。 R言語の自作パッケージを紹介します。 統計解析のアルバイトをしている中、暇な時間を見つけて自分でパッケージを作ってみました。 Rのパッケージには、統計解析用のパッ ...

続きを見る

パッケージの関数は使用するのが難しく(エクセルファイルのフォームの書き方など)、ユーザビリティに難がありました。この点を改善するために、直感的にデータハンドリングが行えるようなアプリを開発しました。

このアプリケーションはGitHubからダウンロードが可能です。

注意:容量が1GBもあるので、ダウンロードする際には空き容量に注意してください。

ダウンロード

今回紹介するアプリケーションは、次のGitHubから入手することが可能です。

GitHub

Gitをインストール済みの方は、次を実行しローカル環境に上のリポジトリのクローンを作成してください。

クローンが完了すると、ローカルにリポジトリが保存されているのを確認できます。

また、Gitに詳しくない方は、上のGitHunのURLをクリックし、リポジトリのページの右上にある緑色の"Code"というボタンをクリックしてください(下の画像の矢印)。

ダウンロード方法

リポジトリのzipファイルのダウンロードが開始します。容量の問題で少々時間がかかります。

アプリケーションの起動

アプリケーションを起動する方法を解説します。

アプリケーションを起動するには、ディレクトリElectronShinyApp/内のelectron-quick-start.exeをダブルクリックします。

アプリケーションのディレクトリの構成を次の簡単な図に示します。

上の図で示している通り、ElectronShinyApp/内にexe.ファイルelectron-quick-start.exeがあるのが確認できます。

これをダブルクリックすることで、アプリケーションを起動できます。

ダブルクリックすると、次の画像のようなエディターが立ち上がります。

起動画面

注意

ダブルクリックしても、Electronがアプリを正常に読み込んでくれないことがあります。その場合、次の画像のようにview/Reloadをクリックし再読み込みしてください(赤矢印)。

再読み込み方法

操作方法

操作方法については、動画で紹介します。

ここでは、次のデータセットiris改.csvを用います。このデータセットは関数dataCleanserの紹介で用いました。

このデータセットを統計解析に用いやすい形に整形していきます。

データセットの読み込み

データセットの読み込みについて説明します。

データセットを読み込むには、次の動画にようにImportボタンをクリックします。読み込みたいcsvファイルを選択するとエディター上にデータフレームが表示されます(読み込みのエンコードはFile-encondingから選択できます。UTF-8とLATIN-1以外はOthersとなります。)。

作業ディレクトリは、Save locationで選択できます。ディレクトリを選択することで、そのディレクトリ中に整形後のデータセットなどを保存することが可能です。デフォルトの保存先はアプリケーションの起動方法の図中のresources/saves/となります。

また、2つのスクロールバーの使用方法について説明します。

スクロールバー

  • 1つ目のスクロールバーは、numeric型とfactor型を判別する際の閾値であり、データのlevelsの数が (データセットの行数/スクロールバーの値) 以上ある場合はnumeric型と判定されます。小さい場合は、factor型と判定されます。
  • 2つ目のスクロールバーは、Date型かそうでないかを判別する際の閾値です。Date型(YYYY/mm/ddやmm/dd/YYYYなど)のデータがスクロールバーの値以上ある場合は、Date型と判定されます。

特に、こだわりがない場合はデフォルトの10を用いることをお勧めします。

データセットの各列のタイプの判別方法を設定し終わったら、Scan dataをクリックしデータが各3つのタイプに整理されます。

Numericパネルについて

次にNumericパネルについて説明します。

Numericパネルは、次の動画にあるように画面上のNumercをクリックすることで遷移することができます。

Numeric型のデータを加工することができます。

Numericパネルの操作方法

  • Choose a colnameで別のNumeric型のデータを参照することができます。
  • Change the colname toで参照中のデータの列名を変更することができます。
  • Choose any missing-values you want to replace with the meanでFormの2列目のMissing values(欠損値)を平均値で補完することができます。
  • Whether to categorise numeric values into ≧ the mean and < the mean or notで平均値以上と平均値未満のカテゴリカルデータに変換することができます。

Factorパネルについて

次にFactorパネルについて説明します。

Numericパネルと同様に、Factor型のデータの加工ができます。

Factorパネルの操作方法

  • Numericパネルと同様に、Choose a colnameで別のfactor型のデータの参照、Change the colnameで参照中のデータの列名を変更することが可能です。
  • Change the colname toで参照中のデータの列名を変更することができます。
  • Choose any levels you want to replace with NAで選択したlevelをNAに置き換えることができます。
  • Select any combinations of pooled levelsでlevelsをプール(組み合わせる)ことができます。
  • Select as the 1st, 2nd, 3rd, . . . , orderでlevelsの順番を1st, 2nd, 3rd, . . . とすることができます。

Dateパネルについて

次にDateパネルについて説明します。

Dateパネルには、Date型と判別されたデータを参照することができます。

次の動画に示すように、列名の変更のみ可能です。

データクレンジングの実行

最後に、データクレンジングの実行方法を説明します。

Numericパネル、Factorパネル、Dateパネルで各列のデータを加工し終えたら、画面上のImport and exportのタブを展開しExportをクリックしましょう。

クリックするとExportの画面が表示されます。

Appendのチェックボックスをオンにすると、Numericパネルでカテゴリ化したデータやFactorパネルでプールしたデータが整形後のデータフレームの右に連結されます。例として、Numericパネルでカテゴリ化すると、通常通りas.numericされたデータを含む整形後のデータの横にカテゴリ化されたデータが連結されます。

Previewをクリックすると、整形後のデータを参照することができます。

Previewで問題がなければ、Downloadをクリックし整形後のデータをダウンロードしましょう。

次のzipファイルをダウンロードすることができます。

zipファイル

  • ファイル名.csv
  • Cleansed_DataSet_ファイル名.csv
  • Cleansed_DataFrame_ファイル名.rda
  • dataCleansingForm_ファイル名_.xlsx

整形されたデータを用いるには、次のコードを実行しrdaファイルを読み込みましょう。

上を実行すると、Environmentに読み込まれているのが確認できます。あとは通常通り、data.frameとして使用することができます。

また、