2013-05-01から1ヶ月間の記事一覧
統計分析用ツールとして便利なRですが統計処理に特化しており、プログラム言語としては若干使い難い点もあります。 例えば、Web解析やXMLパースなどはRよりPythonのライブラリの方が機能的に充実していますし、モデル等をPythonで開発するツールに組み込む場…
検定やモデル作成、ヒストグラムを書くといった場合に連続データをカテゴリデータに変換したい場合があります。 このときSQLでデータを変換する場合、例えば以下のようなクエリを書きます。 SELECT CASE WHEN revenue < 1000 THEN '1000未満' WHEN revenue <…
最近はアベノミクスによる金融緩和と財政出動による経済成長への期待感が強くなっていると感じます。これは誠に結構なことで、政府により需要が創設されれば現在供給過多により陥っているデフレが改善されインフレ化と共に所得増大、失業率低下、生活水準の…
分析・プログラミング環境は生産性に直結する重要なファクターだと思いますが、結構人によって差があるかなー、と思ってます。 せっかくなので、私の分析環境とダウンロード先などについて書こうかかなと思います。
Rにおいて、「DBI」と「RPostgreSQL」を使ってデータを読み込む方法を以前紹介しました。 http://overlap.hatenablog.jp/entry/2013/05/16/224030上記の方法は基本的に問題はないのですが、日本語データを読み込む時に文字化けするという問題があります。 (…
Pythonで日本語を利用しているとき、unicode文字列をstr関数に渡すとUnicodeEncodeErrorが起きます。 例えば以下のコードを実行すると次のようなエラーが出てきます。 コード #!/usr/bin/python # -*- coding: utf-8 -*- test = u"テスト" print str(test) …
私はデータマイニングの仕事なんぞさせて頂いてる関係で、DBに保存してある情報をRで分析することが頻繁に生じます。Rで分析を行う際、元データをRに取り込む最も簡単な方法はcsvなどのテキストから読み込む方法です。 しかし、元データテーブルがDB上にある…
はてなブログに移行して記事を書いてみたけど、行間が広すぎたので何とか短くしようと色々してました。 で、一応何とか修正できました。