第13回R勉強会@東京に行ってきた
前回に引き続き、第13回R勉強会@東京(#TokyoR)に参加してきました。
今回はついに60人が参加。エンジニア以外の人が多いので、いつもと違う色んな話が聞けて楽しい。
R と .NET Framework[twitter:@kos59125]
資料は こちら を参照。
- Rを.NetFrameworkから操作するためのライブラリ R.NET についてのお話。
- パッケージなんかも普通に使える。
- ユーザと開発者を募集中。
Rで学ぶロバスト推定 [twitter:@sfchaos]
- 分析データに外れ値がつきもの
- ロバスト推定とは、外れ値を除外せずに、受ける影響を小さくして頑健なモデルを推定する方法
とりあえずデータをそのまま線形回帰分析しても、望ましい結果が得られないので、何かしらの対処が必要。
Rで地理空間分析 地理データのとりあつかい@酒井
- 地理空間データマイニングのトレンド
- 分析はR
- 視覚化はOpen系のGIS Quantam GISやGoogleEarth
- 空間データの格納はPostgreSQL(PostGIS)
- 地理空間データ分析で苦労するところ
- 地物・イベントとその場所を表現したデータ
- 集めるのはたいへん
- 集めたあと視覚化するのがたいへん
- どのように視覚化するといいのか考えるのがたいへん
- 視覚化したあとの解釈がたいへん
商業施設計画に利用するモデリング技術(1998)
- 比較法
- 経験則 100%
- チェックリスト 63%
- 類推モデル 33%
- 比率分析 30%
- 予測モデル
- 重回帰モデル 42%
- 判別分析 12%
- クラスター分析 42%
- 重力モデル 37%
- 知識ベース
- エキスパートシステム 9%
- ニューラルネットワーク 14%
説明がしづらいモデルは人気がない。(意思決定者が統計に詳しい訳ではないので、直感的な分かりやすさが求められる)
- 地理空間データの特徴
- 分布そのものに何らかの意味がある
- 空間パターンのコンテキスト(文脈)を読み意思疎通をするためには「相手」と「自分」の認識の差を理解する必要がある。
- ビジネス地理空間分析の手法
- 地理的集計分析(商圏分析など)
- 点プロセス分析
- 領域最適化分析
- クラスター分析
- 空間データをdataframeみたいに・・・
- 空間データ
- Points
- Lines
- Polygons
- 地理空間データ
- 投影法
- sp packageのクラス
- SpatiaPoints
- SpatialPointsDataFrame
- 空間データ
YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介[twitter:@yokkuns]
YjDnJlpについての発表は第2回さくテキの内容とほぼ同じ。(テキストが退職ブログになってた以外は・・・。)
形態素解析はYjdnJlpパッケージとMeCabを使用しても大きな差はでないが、特徴語抽出については、以下の2段階のフェーズで行われるため大きな差がでる。
・キーワードをカウント
・コーパス内でどれくらい使われる語かをみて、スコアを算出。
どのコーパスを使うかで、結果に大きく影響がでる。(Yahooのコーパスは不明・・・)
togetter [twitter:@kimukou_26]
まとめ
- 最近は、発表前日に資料を書くのが流行。
- CRANの読み方は、「シーラン」派と「クラン」派が壮絶な戦いを繰り広げている。迂闊な発言は危険。
- もう少しRの勉強が進んだら、パッケージ本を読みたい。Bigmemoryとか気になる。
- 地理空間を扱うのはPostGISが有名だが、MongoDBも忘れて貰ったら困るぜよ。