第12回R勉強会@東京に行ってきた

今回初めてR勉強会@東京に参加してきました。


結構前(1年ぐらい?)から開催されている勉強会に途中から参加、しかもRは素人とドキドキでしたが、楽しく勉強できました。
なにげに大森駅に降りたのも初めてだったような気もします。

Rによる回帰分析入門 [twitter:@yokkuns]

Rによるデータサイエンス第Ⅱ部 第7,8章 回帰分析
データ解析の基本である回帰分析について、Rを使って学んでいきます。

  • 残差の正規Q-Qプロットで正規分布に準じているかどうかを確認できる
  • 重回帰分析で使うファクターを自動選択する関数step。モデルはAICで評価される。これは使えるかも。
  • AIC(Akaike's Information Criterion:赤池情報量規準)
    • 統計モデルを評価するための指標
    • 小さい方がよい 
    • step関数で自動選択
  • 欠損値の扱いをどうするべき?
    • ケースバイケースだが、使わなくて済むなら外してみる
    • 欠損していない値の平均値とかを当てる
    • それ以外のモデルで回帰分析して当てはめてみる

Rで学ぶデータサイエンス 5パターン認識 1章 判別能力の評価 [twitter:@sleipnir002]

  • K交差検証法の学習用と推定用の比率は7:3が一般的
  • 陽性率と偽陽性率をプロットしたのがROC曲線
  • ROC曲線を描くRのパッケージ"ROCR"はあんまりおすすめできない
    • 2値判別しか使えないし、Rの可視化は十分に強力

Rで学ぶ回帰分析と単位根検定 [twitter:@teramonagi]

単回帰分析を復習した後、単純に回帰分析を適用してはいけない『やってはいけないケース』を紹介。
そしてそれがなぜ起こるのかを実例を通して紹介した後、この問題を避けるための方法の1つという観点から単位根検定の紹介をします

  • ランダムウォーク(=単位根過程)同士を回帰すると、あたかも関係がありそうに見える「見せかけの回帰」が発生する。
  • 変数が単位根過程であるかどうかを検定する単位根検定をしよう
  • Phillips-Perron検定や拡張Dickey-Fuller検定がよく使われるやり方
    • 1に近いほど単位根過程である(0に近ければ単位根過程ではない)と判断できる

RをSQLで操る [twitter:@aad34210]

データベース(RDB)を利用している人でもRがとっつきやすくなる!
dataframeをSQLで操作ができる「sqldf」パッケージを紹介。

  • RDBMS使ったことがある人はRの集計はめんどくさいので、sqldf使えば幸せになるかも。
  • 直接SQLを記述するだけで、あとはやってくれる
  • パフォーマンスは裏でDBを使用し、インポートの時間などが必要なため、オーバヘッドがある。
    • 生産性と性能を求められる場合とで、使い分けるた方がよいかも

Rあんな時こんな時 〜いつか役立つ(かもしれない)Tips〜 [twitter:@sfchaos]

Rを使っていてこんなことをやりたいとき,こんなことに遭遇したとき,あなたはどうしますか?
クイズ形式で進行しながら,Rを使用する際のちょっとしたコツについて議論させていただければと思います

  • NA/NaN/Infの判定(欠損値の発見)は、is.finite関数を使用する
  • 「Rの基礎とプログラミ ング技法」は良い本なので、読みましょう

世界のR(仮) [twitter:@dichika]

  • 出来る男は早口

Togetter [twitter:@bob3bob3]

まとめ&所感

  • 大学生からその道の専門家、私みたいなWEBエンジニアなど多岐に渡る人が参加してて楽しい。
  • 回帰分析はきっちり復習して、理解を深めておきたい。
  • Rの勉強とともに統計学の勉強も出来て一石二鳥です。
    • が、まだまだ不勉強のため初めて聞く話もあり、復習しないとなかなか自分のものにならないので復習は必須。

帰りに非常用エレベーターに乗ってしまい若干迷子になりかけたのは秘密です。。。