第13回R勉強会@東京に行ってきた

前回に引き続き、第13回R勉強会@東京(#TokyoR)に参加してきました。
今回はついに60人が参加。エンジニア以外の人が多いので、いつもと違う色んな話が聞けて楽しい。

線形判別分析[twitter:@isseing333]

  • ロジスティック回帰分析は、線形か?非線形か?

R と .NET Framework[twitter:@kos59125]

資料は こちら を参照。

  • Rを.NetFrameworkから操作するためのライブラリ R.NET についてのお話。
  • パッケージなんかも普通に使える。
  • ユーザと開発者を募集中。

Rで学ぶロバスト推定 [twitter:@sfchaos]

  • 分析データに外れ値がつきもの
    • ロバスト推定とは、外れ値を除外せずに、受ける影響を小さくして頑健なモデルを推定する方法

とりあえずデータをそのまま線形回帰分析しても、望ましい結果が得られないので、何かしらの対処が必要。

  • ロバスト推定
    • M推定法
      • 線形回帰の場合は、全ての点を同じ重みで考えているが、M推定では、モデルへの当てはまりが悪い点の重みを引く巣設定することにより影響を小さくする。
      • 残差に関する外れ値についてはロバストだが、説明変数に関する外れ値については、ロバストでないという問題がある。
      • MM推定を使うと、説明変数に関する外れ値についてもロバスト
      • 最新の手法が入っているrobustbaseパッケージのlmrob関数を使っても同様の結果が得られる。
      • 高次元のデータに対しては、2次元のデータのように視覚的にはずれ値を検出できる訳ではないので、大変。

Rで地理空間分析 地理データのとりあつかい@酒井

  • 地理空間データ分析で苦労するところ
    • 地物・イベントとその場所を表現したデータ
    • 集めるのはたいへん
    • 集めたあと視覚化するのがたいへん
    • どのように視覚化するといいのか考えるのがたいへん
    • 視覚化したあとの解釈がたいへん

商業施設計画に利用するモデリング技術(1998)

説明がしづらいモデルは人気がない。(意思決定者が統計に詳しい訳ではないので、直感的な分かりやすさが求められる)

  • 地理空間データの特徴
    • 分布そのものに何らかの意味がある
    • 空間パターンのコンテキスト(文脈)を読み意思疎通をするためには「相手」と「自分」の認識の差を理解する必要がある。

 

  • ビジネス地理空間分析の手法
    • 地理的集計分析(商圏分析など)
    • 点プロセス分析
    • 領域最適化分析
    • クラスター分析
  • 空間データをdataframeみたいに・・・
    • 空間データ
      • Points
      • Lines
      • Polygons
    • 地理空間データ
      • 投影法
    • sp packageのクラス
      • SpatiaPoints
      • SpatialPointsDataFrame

YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介[twitter:@yokkuns]

YjDnJlpについての発表は第2回さくテキの内容とほぼ同じ。(テキストが退職ブログになってた以外は・・・。)

形態素解析はYjdnJlpパッケージとMeCabを使用しても大きな差はでないが、特徴語抽出については、以下の2段階のフェーズで行われるため大きな差がでる。
・キーワードをカウント
コーパス内でどれくらい使われる語かをみて、スコアを算出。
 どのコーパスを使うかで、結果に大きく影響がでる。(Yahooのコーパスは不明・・・)

togetter [twitter:@kimukou_26]


まとめ

  • 最近は、発表前日に資料を書くのが流行。
  • CRANの読み方は、「シーラン」派と「クラン」派が壮絶な戦いを繰り広げている。迂闊な発言は危険。
  • もう少しRの勉強が進んだら、パッケージ本を読みたい。Bigmemoryとか気になる。
  • 地理空間を扱うのはPostGISが有名だが、MongoDBも忘れて貰ったら困るぜよ。