データ分析がしたい

企業でデータ分析などやっています。主にRやPythonによるデータマイニング・機械学習関連の話題やその他備忘録について書いてます。

Python

scikit-learnを用いたサンプルデータ生成

機械学習の勉強や新しいアルゴリズムのテストをする場合、irisなどのシステム組み込みのサンプルデータを利用するか、UCIリポジトリなどのネット上の公開データから良さげなものを探すというのが一般的だと思います。しかしながら、irisなどの組み込みデータ…

はてなブックマーク記事のレコメンドシステムを作成 PythonによるはてなAPIの活用とRによるモデルベースレコメンド

私は情報収集にはてなブックマークを多用しており、暇な時は結構な割合ではてなブックマークで記事を探してます。しかし、はてなブックマークは最新の記事を探すのは便利ですが、過去の記事を探すにはいまいち使えません。個人的には多少過去の記事でも自分…

[Python][データ分析]Pythonによるデータ分析環境

統計分析用ツールとして便利なRですが統計処理に特化しており、プログラム言語としては若干使い難い点もあります。 例えば、Web解析やXMLパースなどはRよりPythonのライブラリの方が機能的に充実していますし、モデル等をPythonで開発するツールに組み込む場…

[データ分析]分析・プログラミング環境について

分析・プログラミング環境は生産性に直結する重要なファクターだと思いますが、結構人によって差があるかなー、と思ってます。 せっかくなので、私の分析環境とダウンロード先などについて書こうかかなと思います。

[Python]UnicodeEncodeErrorの対処

Pythonで日本語を利用しているとき、unicode文字列をstr関数に渡すとUnicodeEncodeErrorが起きます。 例えば以下のコードを実行すると次のようなエラーが出てきます。 コード #!/usr/bin/python # -*- coding: utf-8 -*- test = u"テスト" print str(test) …