第1回 にこにこテキストマイニング勉強会に参加してきました。
テキストマイニングの勉強会に参加してきました。
非常に勉強になったので、復習の意味も込めて超久しぶりにブログを書きます。
この分野には前から興味はありましたが、なかなか勉強するきっかけがなかったので放置気味でしたが、折角の機会なので参加することに。
会場は勉強会の会場には定評があるOracleさんにて。
何気に初Oracleだったりしましたが、非常にすばらしい会場でしかも広い。
入館に若干時間がかかることが難点ですが、そこは仕方ないことでしょう。
目的&概要
目的
テキストマイニングについての学習のスタートアップ
テキストマイニング技術に関して気軽に参加・議論することができる場の提供
概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、
大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、
第1回 にこにこテキストマイニング勉強会
またテキストマイニングを実務に活かす方法について考えていきます。
テキストマイニングの歩き方 [twitter:@AntiBayesian]
発表資料はここ(PDF)で公開されています。
テキストマイニングの利点
- ブログや掲示板など定型化されていないものを対象とするため、分析できるデータの範囲が大幅に拡大
- アンケートとは異なり想定外の回答が寄せられる可能性があり、収集者のフィルタがかかっていない生の声が得られる
- 性別・年代・地域などパーソナリティを8割ぐらい取得できる
- アンケートで個人情報を質問項目に入れると、回収率が極端に下がってしまう
言語処理の手法
テキストマイニングで使用するのは、1、2がほとんど。
テキストの統計処理
テキストマイニングの注意点
- テキストを数値化する際、必ず情報は欠損する
- テキストデータはスパース(疎)なデータである。疎なデータは通常の統計解析は通用しないケースが多い
- スパースデータ用の解析手法を用いる
- データ量を増やす
- 分析範囲を蜜な箇所だけに制限する
どの手法もそれぞれに問題があるが、まずは2を検討するべき(さらにスパースなデータが増加する可能性があるが。。)
実践するために
- 95%までは美しく実装できる@shuyo
- 400字詰め原稿用紙に20文字の誤字→使い物にならない
- 辞書を作り、クリーニングする
- 同義語辞書:私=私、俺、自分、僕、わたし
- ストップワード:(それ、あれ、私、君)
- 20人月の勝利
- 精度が単調に増加する。モデルを使用してやる場合は危険がある
ゆるふわテキストマイニングをしてみよう [twitter:@toilet_lunch]
発表資料はここ(PDF)で公開されています。
テキストマイニングとは
何をマイニングしたいかによって、扱うデータや手法が異なるため、一般的な定義が決められない。
評判分析のツール
精度をあげるには
- ジャンルを限定する
- テキストマイニングは通常、知りたい情報のジャンルをあらかじめ想定して行われる。
- 同じ評価表現がジャンルによって、反転を起こす場合がある
- 対象テキストのクリーニング
- 整理された形式で記述されていない
- つべこべいわず地道にクリーニングする
- 統計的な信頼性が損なわれるため、対象データが小さくなりすぎないように注意。
- 言語の困難さ
- 否定表現
- 未知語
- 助詞の省略
- 複合的表現
- 表記ゆれ
- 複数の評価の混在
- 複雑すぎる構造の文
考えだすときりがなく、人間でも解読できない文などがあるため、完全な対応は不可能。
要求される精度とリソースの兼ね合い
コピー&ペーストのみで始めるテキストマイニング超入門 [twitter:@langstat]
テキストマイニングの一般的な流れ
- データ構築
- テキスト収集、電子化
- テキスト処理
- 語彙表の作成、用例の抽出
- 統計処理
- 検定、多変量解析
- 質的分析
- 結果の解釈、実質科学的な考察
テキストを入手できるサイト
- 青空文庫
- 日本語のデータ
- Project Gutenberg
- 英語他のデータ
形態素解析ができるサイト
- テキスト解析デモ - 日本語形態素解析
- 出力形式を指定して、解析が可能
- Language Grid Playground (Morphological Analyzer)
統計解析できるサイト
初めてのnltk [twitter:@gepuro]
なんと大学2年生。
この分野に置ける先達がいる中で、初回発表する勇気がすばらしい。
アンケート自由回答のテキストマイニング事例 [twitter:@bob3bob3]
発表資料はここ(PDF)で公開されています。
商用テキストマイニングツール
- TRUE TELLER (野村総研)
- Text Mining Studio (数理システム)
- プリウス1台分ぐらいするらしい・・・が、おすすめ。
- SPSS Text Analysis for Survey (SPSS)
- ワードマイナー(日本電子)