「第3回さくさくテキストマイニング勉強会」に行ってきました

超々超々、遅ればせながら。。
6/4(土)にさくさくテキストマイニング勉強会に行ってきたので、
簡単に所感などを書き留めておこうと思います。
# 全般的に、細かい誤りを恐れずざっくり書いてますので。。

「第3回さくさくテキストマイニング勉強会」
　http://atnd.org/events/15873

# ちなみにテキストマイニングというのは、超ざっくり言うと、
# 人間が書いた大量の文章を機械に分析させて
# なんか発見してみようという行為のことです。
# 恐ろしいほど、誤解を恐れずにざっくりなので、
# 知らない人はwikipedia見て下さい。
# http://ja.wikipedia.org/wiki/テキストマイニング

この「さくさくテキストマイニング」というのは、
テキストマイニングのプロフェッショナルでなく、
マーケティングに使いたいとか、素人だけど、
みたいな人でも参加しやすい形で実施されている勉強会という位置づけです。
# 今回は各セッションが始まる前に、
# 基礎知識解説の時間が設けられていました。

参加されていた方は、
エンジニアやマーケター、言語処理の研究者の方など、
テキストマイニングというキーワードで繋がったるつぼな感じでした。
僕が話した感じでは、
テキストマイニングを使う側の方が多かったかなと言う印象でした。
# 正確な人数の比率は分からないですが

全体のセッションとしては、ざっくり以下の３部構成で、
いろいろな角度からテキストマイニングに接することが出来ました。
・テキストマイニングの概念系
・テキストマイニングやってみました系
・テキストマイニング使ってどうよ系

それでは、セッション毎に。

■単語重要度入門～テキストをダイエットさせよう～
発表者：@toilet_lunch

テキストマイニングのために、
文書のキーとなる単語を上手く見つけて、
賢くテキストの特徴を知るにはどうすればいいのだろう？
と言う問いに対する手法のお話でした。

テキストを形態素解析（分かち書き）して、
単純に単語の出現頻度をみると助詞ばかり高頻度になってしまう。
これに対処するために、TFIDFという指標を使う。
TFIDFとは、
「その文書での単語の出現数」と「全文書数の単語出現頻度の逆数」の積で、
「その文書にたくさん含まれる単語」かつ「他にはあまり出てこない単語」
という単語がすっごく重要と判断するという指標です。
この指標にはいろいろ問題あるけど、
簡単でわかりやすいから結構使われているよ、って話でした。

この方法の欠点を改善した手法もいろいろあるけど、
それはもっと詳しい（高度な）勉強会で、って感じで。。

■特徴抽出からクラスタリング
発表者：@Taka_Kuni

こちらも「単語重要度入門」同様で、
どうやったらキーワード見つけられるかという話。

SOM(Self-Organizing Map)を使って、
高次元の情報を低次元にして分析しましょうという話ですが。
かみ砕いた説明出来る気がしないので、
中身の話は、このブログではスキップ。

いろいろな手法は考えられるけど、
如何に要らない単語を捨てるかと言うのが大事だよねっ
て話が上がっていました。
どんな優れた方法でも元のデータがゴミだらけでは、
どうしようもないと言うことで。

■テキストマイニングの前のコーパス収集
発表者：@gepuro
資料：http://www.slideshare.net/gepuro/collecting-corpus-8203771

テキストマイニングを実践するためには、
まずテキストを集める必要がある。
どのようなところから、どのような手法で収集しようとして、
どんなを苦労したのかというお話。

質疑が結構盛り上がって、
・Amazonやはてなは、HTMLタグでどこにどの情報があるか結構分かるよ
・2chのアスキーアートってどうやって処理するんだろう？
などの話題が上がっていました。

■とりあえずTwitterで日本語を集めてみよう
発表者：@s_wool

「テキストマイニングの前のコーパス収集」同様、
テキストをどうやって集めてくるかの一例で、
TwitterのAPIをつかってtweetを集める方法のお話。

こちらも質疑が盛り上がり、質問している人が次々と
「私もtwitterのtweet集めているんですけど」と言っていたのが
印象的でした。
tweetを収集している人は世の中にたくさん居るのですね。。

■KH Coderで3分間テキストクッキング♪
発表者：@AntiBayesian

「KH Coder」というアプリケーションを使って、
お手軽にテキストマイニングしてみましょうというお話。

KH Coder
　http://khc.sourceforge.net/

ダウンロードして、インストールして、
テキストたたき込んで、メニューから前処理選んだら準備完了。
後は、メニューから共起ネットワークとか作れますよ。
というツールのお手軽感を紹介、デモ交えての発表でした。
R, MySQL, ChaSenを組み合わせたツールだそうです。

このツールは4MBくらいのテキストでも、
解析がつらいようなので、実務には難しいかも知れないという話でした。
ただ、テキストマイニングの雰囲気を知るには使える。

個人的に、実務ベースでも、
サンプリングして前分析として試行錯誤とかに使えるかもと思いました。

# 上記の点ですが、
# KH Coder制作者の樋口さんからご連絡頂きましたので訂正致します。(6/14 update)
# 200MBまでのテキスト解析が可能であることが確認できているそうです。
# 以下に、樋口さんから頂いたファイルサイズについての情報になります。
# 「KH Coderではどの程度の大きさのファイルまで分析できますか」
# http://khc.sourceforge.net/FAQ.html#d-size
# 「どの程度時間がかかりますか」
# http://khc.sourceforge.net/FAQ.html#d-size-time
# 「Rによる解析結果が出ない時」
# http://koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=805&reno=no&oya=805&mode=msgview

■テキスト/データマイニングと業務
発表者：@tks

テキストマイニングを使って、
どんな業務をしているか、と言うご紹介のお話。
データ分析よりも、テキストマイニングを生かしたサービス作りの話でした。

以下のようなサービスが紹介されていました。
・チームラボマッピングサーチ
　http://www.team-lab.com/products/mapping.html
・ジクレポ
　http://www.jikurepo.com/

テキストマイニングという技術を、
ユーザインターフェイスを含めた設計も含めて、
いかにサービスに生かしていくかという話をされていたのが印象的でした。

■テキストマイニングのマーケティングへの活用について
発表者：@saynoway66

テキストマイニングを
実務上のマーケティングにどのように生かしているかのお話。

マーケティングで市場調査するには、
・エスノグラフィー
・グループインタビュー
・テキストマイニング
・データマイニング
・アンケート
など、さまざまな手法があるが特性を理解して使い分ける必要がある。
テキストマイニングは、
定量的・定性的手法の中間に位置づけられる手法で
「大量データから意外な事実を見つける」目的で利用される手法。

ただ、テキストマイニングが中間的な手法であるが故に、
調査結果も中間的なものになり、
上手く根拠材料を準備しないと、周囲の説得が難しい事がある。

定性的な意味での生データ、定量的な意味での数値を
根拠材料としてきちんと整理しておくことが、
周囲の説得には重要になるのではないかという話がされていました。

以上、「第3回さくさくテキストマイニング勉強会」の所感でした。
遅ればせながら、遅ればせながら。