データ分析がしたい

企業でデータ分析などやっています。主にRやPythonによるデータマイニング・機械学習関連の話題やその他備忘録について書いてます。

データ分析

scikit-learnを用いたサンプルデータ生成

機械学習の勉強や新しいアルゴリズムのテストをする場合、irisなどのシステム組み込みのサンプルデータを利用するか、UCIリポジトリなどのネット上の公開データから良さげなものを探すというのが一般的だと思います。しかしながら、irisなどの組み込みデータ…

RのtransitionPlot関数を用いた遷移図の作成

こちらの記事で紹介されているRのtransitionPlotを用いた図がとても綺麗でしたので、試しにこれを使って遷移図を作図してみました。 パッケージインストール transitionPlotはGmiscパッケージに含まれていますがcranサーバから取得できないので、以下のよう…

[R][データ分析]階層ベイズモデルのサンプルコード bayesmパッケージを利用

Rの階層ベイズモデルのサンプルコードが全然見当たらなかったので、自分で書くことにします。詳細を説明しだすとかなり面倒な領域なので、取り合えず使えるというレベルを目指します。利用するパッケージは「bayesm」です。 階層ベイズに限らずベイズ推定用M…

[Python][データ分析]Pythonによるデータ分析環境

統計分析用ツールとして便利なRですが統計処理に特化しており、プログラム言語としては若干使い難い点もあります。 例えば、Web解析やXMLパースなどはRよりPythonのライブラリの方が機能的に充実していますし、モデル等をPythonで開発するツールに組み込む場…

[データ分析]好景気におけるデータアナリストの価値は?

最近はアベノミクスによる金融緩和と財政出動による経済成長への期待感が強くなっていると感じます。これは誠に結構なことで、政府により需要が創設されれば現在供給過多により陥っているデフレが改善されインフレ化と共に所得増大、失業率低下、生活水準の…

[データ分析]分析・プログラミング環境について

分析・プログラミング環境は生産性に直結する重要なファクターだと思いますが、結構人によって差があるかなー、と思ってます。 せっかくなので、私の分析環境とダウンロード先などについて書こうかかなと思います。

[R]DBから日本語データを読み込んだ際の文字コードの変更

Rにおいて、「DBI」と「RPostgreSQL」を使ってデータを読み込む方法を以前紹介しました。 http://overlap.hatenablog.jp/entry/2013/05/16/224030上記の方法は基本的に問題はないのですが、日本語データを読み込む時に文字化けするという問題があります。 (…