第2回 さくさくテキストマイニング勉強会に行ってきた
前回に引き続き、「第2回 さくさくテキストマイニング勉強会」に参加してきました。
会場は前回と同じOracle青山センターです。200人ぐらい入る大きな会議室。さすがです。
目的&概要
目的
テキストマイニングについての学習のスタートアップ
テキストマイニング技術に関して気軽に参加・議論することができる場の提供
概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、
大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、
第2回「にこにこ」改め さくさくテキストマイニング勉強会
またテキストマイニングを実務に活かす方法について考えていきます。
言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 [twitter:@AntiBayesian]
資料は ここ(PDF) から。
- 顔文字情報と文の評価表現の関連性についての一考察
- 顔文字は周辺言語的要素を持つ
- 顔文字単体での極性だけではなく、文脈把握が大切
- 顔文字は回答者によって、快・不快バラバラ
- 極性が異なるのに同じ顔文字が使われることも
- クラス分類ではなく、複数の感情軸を併せ持つ
- 自身は意味を持たず、強調、緩衝材としての顔文字利用
- どんな時に不自然言語を使うか?
- 仲の良い人同士だと砕けた表現や隠語使いやすい
- 他の人より頻繁に不自然言語を用いて会話する相手=仲が良いのでは?ソーシャルネットワーク抽出出来る
- 不自然言語の利用度合いが親密さを表すかも
- 顔文字は非言語的な情報まで伝達出来るかも
- 誤字・脱字から精神状態などを読み取れるかも
- 誤った語の使い方から年齢等が推定できるかも
必ずチェックすべき10のブログ (下に行く程、難しい内容らしい。上から5つぐらいは読むべし)
- コーパスいぢり( [twitter:@langstat] )
- あらびき日記( [twitter:@a_bicky] )
- 睡眠不足?( [twitter:@sleepy_yoshi] )
- EchizenBlog-Zwei( [twitter:@echizen_tm] )
- Overlasting::Life( [twitter:@overlast] )
- おとうさんの解析日記( [twitter:@isseing333] )
- はやしのブログRev.2( [twitter:@phosphor_m] )
- nokunoの日記( [twitter:@nokuno] )
- ぬいぐるみライフ(仮)( [twitter:@mickey24] )
- Mi manca qualche giovedi`( [twitter:@shuyo] )
今日から使える! みんなのクラスタリング超入門 [twitter:@toilet_lunch]
非階層型、ハードクラスタリングの手法 k-meansについてのお話。
- bayon
- Repeated Bisection法
- k-meansでもクラスタリングできる
- 商用利用で事前許可が不要
- x-means
- k-meansのクラスタの数を推定してくれる
『可視化するだけ』でも面白い テキストマイニング最初の一歩 [twitter:@ts_3156]
えごったー の中の人の発表。
- えごったー
- 高度な知識は必ずしも必要ない
- 今回利用したのは、形態素解析だけ
- 簡単な解法で解ける問題もたくさんある
- 可視化するだけでもよい、面白さは人が勝手に見つける
- えごったー側で行うのは簡単な情報の提示のみ
- 意味を汲み取るのは人間の役目
- 面白い可視化の例
見切り発車でも大丈夫。とりあえず作ってみよう
概観テキストマイニング [twitter:@todesking]
- 大量のデータ
- 人間ではハンドリングできない程に多いデータを相手にする
- 統計的手法はデータが多いほうが有効
- 計算機の出番
- フリーテキスト
- 自然言語による記述
- 構造化されていないデータ
- さまざまなノイズ
- 表記ゆれ
- 未知の表現
- 計算機で処理するには工夫が必要
- 前処理必須
- 解析ミスがつきもの
- なぜフリーテキストなのか?
- データ量はパワーである
- ノイズ混じりだが大量のデータを入手可能
- 事前に構造を規定しなくていい
- フリーテキストの構造を分析する
- ノイズとの戦い
- 未知の用語
- 誤記
- ノイズとの戦い
- テキストマイニングでいかに価値を生むか
- その分析結果が何を意味するのか?
- 次にすべき行動は?
- その行動は誰に、どのような価値をもたらすか?
WordNetで作ろう! 言語横断検索サービス [twitter:@stakemura]
社内google code を作りたいが、増え続けるプログラムをすぐに見つからない状態をなんとかしたい。
- 検索機能を強化
- 日英表記揺れを解決
- 語義曖昧性を解決
検索結果がよろしくない。
- BM25Fでやっと納得のいく結果が得られた
- 自作の検索エンジンなのですぐ対応できた
togetter [twitter:@kimukou_26]