RとPythonによるデータマイニング

企業でデータ分析などやっています。主にRやPythonによるデータマイニング・機械学習関連の話題と日々の日記やその他備忘録について書いてます。

[データ分析]分析・プログラミング環境について

分析・プログラミング環境は生産性に直結する重要なファクターだと思いますが、結構人によって差があるかなー、と思ってます。
せっかくなので、私の分析環境とダウンロード先などについて書こうかかなと思います。


私の場合は、状況に応じて以下のようなツールを利用してます。
(ちなみに私は仕事上の関係で基本Windowsで分析を行ってます。以前は熱心なLinux、特にUbuntuユーザでしたが。。。)
 集計 ⇒ Postgresql、Excel
 データ整形 ⇒ CygwinPython
 データクレンジング ⇒ PostgresqlCygwinPython、R
 データ分析、モデル作成 ⇒ Excel、R

この中でExcel以外はフリーで以下のリンクからダウンロードできます。
 Cygwin ⇒ http://www.cygwin.com/
 Postgresql ⇒ http://www.postgresql.jp/
 Python ⇒ http://www.python.jp/Zope/Zope/download/pythoncore
 R ⇒ http://www.r-project.org/
場合によってはその他のツールも使いますが、基本的に上記ツールで完結します。


で、PostgresqlPython、Rのコードを書く場合、それぞれ以下のような環境で作業してます。
 Postgresql ⇒ A5、(場合によってはpgAdmin
 Python ⇒ emacs(NTEmacs)
 R ⇒ R studio

A5はテーブル定義書を簡単に作成できるので重宝してます。ただし、エラーが生じた際に書いたクエリが消えてしまうのが難点といえば難点です。

Pythonは一時PyScripterを利用してたのですが、どうもWindows7で使えないようだったので、結局Cygwin+Emacsに落ち着きました。
WindowsのEmacsはこれまた色々あるのですが、Cygwinから使いやすいという点でNTEmacsを使っています。(gnupackは個人的には使いにくかった。。。)

RをEmacsではなくR studioを利用して書いているのはR studioのプロジェクト管理が非常に使いやすかったからです。
仕事で複数プロジェクトで分析を行う際、分析状況を保存して別な分析に移れるのは非常に便利です。
Emacsでもできるのでしょうが、私はそこまでEmacsのヘビーユーザではないので。)


また、気軽に使えるテキストエディタとしてはEmacsは若干重いので、sakuraエディタを使ってます。
多機能かつ大量のデータを読み込むことができるので、利用率高いです。


分析環境は人それぞれなので、自分にあったツールを利用するのが良いと思いますが、私のお勧めは上記のツールです。
新規PCを使う際など、いかに分析環境を素早く整えられるかは重要ですので、使い慣れたツールのダウンロード先はブックマークしておくと良いのではないでしょうか。