こんにちは、usagi-sanです。
個人でアプリケーションを作ってみました。
今回紹介するアプリケーションは、以前紹介したパッケージUsagiSanの関数dataCleanserをWEBアプリに拡張したものとなります。アプリではなく関数を使いたい方は、次の記事でパッケージインストール方法や関数の使いかたを読んでください。
R言語 自作パッケージ UsagiSan
こんにちは、usagi-sanです。 R言語の自作パッケージを紹介します。 統計解析のアルバイトをしている中、暇な時間を見つけて自分でパッケージを作ってみました。 Rのパッケージには、統計解析用のパッ ...
続きを見る
パッケージの関数は使用するのが難しく(エクセルファイルのフォームの書き方など)、ユーザビリティに難がありました。この点を改善するために、直感的にデータハンドリングが行えるようなアプリを開発しました。
このアプリケーションはGitHubからダウンロードが可能です。
注意:容量が1GBもあるので、ダウンロードする際には空き容量に注意してください。
ダウンロード
今回紹介するアプリケーションは、次のGitHubから入手することが可能です。
Gitをインストール済みの方は、次を実行しローカル環境に上のリポジトリのクローンを作成してください。
1 | $ git clone https://github.com/usagi-san-dayo/data-cleansing-App |
クローンが完了すると、ローカルにリポジトリが保存されているのを確認できます。
また、Gitに詳しくない方は、上のGitHunのURLをクリックし、リポジトリのページの右上にある緑色の"Code"というボタンをクリックしてください(下の画像の矢印)。
リポジトリのzipファイルのダウンロードが開始します。容量の問題で少々時間がかかります。
アプリケーションの起動
アプリケーションを起動する方法を解説します。
アプリケーションを起動するには、ディレクトリElectronShinyApp/内のelectron-quick-start.exeをダブルクリックします。
アプリケーションのディレクトリの構成を次の簡単な図に示します。
1 2 3 4 5 6 7 8 9 10 | ElectronShinyApp/ ├ locales/ ├ resources/ │ ├ app/ │ └ saves/ #A default save location ├ swiftshader/ │ ︙ ├ electron-quick-start.exe #A exeucutable file for running shinyApp ︙ |
上の図で示している通り、ElectronShinyApp/内にexe.ファイルelectron-quick-start.exeがあるのが確認できます。
これをダブルクリックすることで、アプリケーションを起動できます。
ダブルクリックすると、次の画像のようなエディターが立ち上がります。
注意
ダブルクリックしても、Electronがアプリを正常に読み込んでくれないことがあります。その場合、次の画像のようにview/Reloadをクリックし再読み込みしてください(赤矢印)。
操作方法
操作方法については、動画で紹介します。
ここでは、次のデータセットiris改.csvを用います。このデータセットは関数dataCleanserの紹介で用いました。
このデータセットを統計解析に用いやすい形に整形していきます。
データセットの読み込み
データセットの読み込みについて説明します。
データセットを読み込むには、次の動画にようにImportボタンをクリックします。読み込みたいcsvファイルを選択するとエディター上にデータフレームが表示されます(読み込みのエンコードはFile-encondingから選択できます。UTF-8とLATIN-1以外はOthersとなります。)。
作業ディレクトリは、Save locationで選択できます。ディレクトリを選択することで、そのディレクトリ中に整形後のデータセットなどを保存することが可能です。デフォルトの保存先はアプリケーションの起動方法の図中のresources/saves/となります。
また、2つのスクロールバーの使用方法について説明します。
スクロールバー
- 1つ目のスクロールバーは、numeric型とfactor型を判別する際の閾値であり、データのlevelsの数が (データセットの行数/スクロールバーの値) 以上ある場合はnumeric型と判定されます。小さい場合は、factor型と判定されます。
- 2つ目のスクロールバーは、Date型かそうでないかを判別する際の閾値です。Date型(YYYY/mm/ddやmm/dd/YYYYなど)のデータがスクロールバーの値以上ある場合は、Date型と判定されます。
特に、こだわりがない場合はデフォルトの10を用いることをお勧めします。
データセットの各列のタイプの判別方法を設定し終わったら、Scan dataをクリックしデータが各3つのタイプに整理されます。
Numericパネルについて
次にNumericパネルについて説明します。
Numericパネルは、次の動画にあるように画面上のNumercをクリックすることで遷移することができます。
Numeric型のデータを加工することができます。
Numericパネルの操作方法
- Choose a colnameで別のNumeric型のデータを参照することができます。
- Change the colname toで参照中のデータの列名を変更することができます。
- Choose any missing-values you want to replace with the meanでFormの2列目のMissing values(欠損値)を平均値で補完することができます。
- Whether to categorise numeric values into ≧ the mean and < the mean or notで平均値以上と平均値未満のカテゴリカルデータに変換することができます。
Factorパネルについて
次にFactorパネルについて説明します。
Numericパネルと同様に、Factor型のデータの加工ができます。
Factorパネルの操作方法
- Numericパネルと同様に、Choose a colnameで別のfactor型のデータの参照、Change the colnameで参照中のデータの列名を変更することが可能です。
- Change the colname toで参照中のデータの列名を変更することができます。
- Choose any levels you want to replace with NAで選択したlevelをNAに置き換えることができます。
- Select any combinations of pooled levelsでlevelsをプール(組み合わせる)ことができます。
- Select as the 1st, 2nd, 3rd, . . . , orderでlevelsの順番を1st, 2nd, 3rd, . . . とすることができます。
Dateパネルについて
次にDateパネルについて説明します。
Dateパネルには、Date型と判別されたデータを参照することができます。
次の動画に示すように、列名の変更のみ可能です。
データクレンジングの実行
最後に、データクレンジングの実行方法を説明します。
Numericパネル、Factorパネル、Dateパネルで各列のデータを加工し終えたら、画面上のImport and exportのタブを展開しExportをクリックしましょう。
クリックするとExportの画面が表示されます。
Appendのチェックボックスをオンにすると、Numericパネルでカテゴリ化したデータやFactorパネルでプールしたデータが整形後のデータフレームの右に連結されます。例として、Numericパネルでカテゴリ化すると、通常通りas.numericされたデータを含む整形後のデータの横にカテゴリ化されたデータが連結されます。
Previewをクリックすると、整形後のデータを参照することができます。
Previewで問題がなければ、Downloadをクリックし整形後のデータをダウンロードしましょう。
次のzipファイルをダウンロードすることができます。
zipファイル
- ファイル名.csv
- Cleansed_DataSet_ファイル名.csv
- Cleansed_DataFrame_ファイル名.rda
- dataCleansingForm_ファイル名_.xlsx
整形されたデータを用いるには、次のコードを実行しrdaファイルを読み込みましょう。
1 | load("ファイル名.rda") |
上を実行すると、Environmentに読み込まれているのが確認できます。あとは通常通り、data.frameとして使用することができます。
また、