Code for Nerima、UDトーク青木さんより、データをオープンデータとしていただきました!
おもしろい!
単語をグラフっぽく表示したもの!
自分でも何かやってみようと、解析はじめに形態素解析をしてみようと探してみつけたJUMAN++、600MBの辞書付きですがブロードバンド時代、ダウンロードは一瞬です。
JUMAN++ 早速インストール (for Mac)
wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz tar xJvf jumanpp-1.02.tar.xz cd jumanpp-1.02 ./configure make sudo make install
動作確認してみます
echo "IchigoJamを食べる" | jumanpp IchigoJam IchigoJam IchigoJam 未定義語 15 アルファベット 3 * 0 * 0 "品詞推定:名詞" を を を 助詞 9 格助詞 1 * 0 * 0 NIL 食べる たべる 食べる 動詞 2 * 0 母音動詞 1 基本形 2 "代表表記:食べる/たべる ドメイン:料理・食事" EOS
半角区切りで、次のように形態素に分解してくれます
0 表層形
1 読み
2 見出し語
3 品詞大分類
4 品詞大分類ID
5 品詞細分類
6 品詞細分類ID
7 活用型
8 活用型ID
9 活用形
10 活用形ID
11 意味情報 未定義語の場合 "品詞推定:名詞" など推定が入ったりする
テキスト化されたものをjumanppに食べさせて、名詞と未定義語を頻出単語順に並べてみました。
1 データ 146回
2 こと 87
3 の 66
4 形 53
5 もの 44
6 オープン 41
7 アプリ 41
8 方 40
9 SPARQL 34
10 ところ 30
データと146回も言ってたんですね!(登場名詞数は700ほど!)
特徴ある名詞や、名詞間の近さなどを使って、重要語のリアルタイム解説とかおもしろそうです。
先日の電脳メガネサミット、書き起こしの第一弾が公開されたので、合わせてどうぞ!
「『電脳コイル』の世界は実現可能か? 日本発、メガネ型ウェアラブル端末の“いま”に迫る - ログミー」