2018-03-28
Code for Shinjuku - SPARQLでマップハンズオン!で初体験したUDトークによる自動全文書き起こし。
Code for NerimaUDトーク青木さんより、データをオープンデータとしていただきました!

おもしろい!


単語をグラフっぽく表示したもの!

自分でも何かやってみようと、解析はじめに形態素解析をしてみようと探してみつけたJUMAN++、600MBの辞書付きですがブロードバンド時代、ダウンロードは一瞬です。

JUMAN++ 早速インストール (for Mac)

wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz tar xJvf jumanpp-1.02.tar.xz cd jumanpp-1.02 ./configure make sudo make install

動作確認してみます

echo "IchigoJamを食べる" | jumanpp IchigoJam IchigoJam IchigoJam 未定義語 15 アルファベット 3 * 0 * 0 "品詞推定:名詞" を を を 助詞 9 格助詞 1 * 0 * 0 NIL 食べる たべる 食べる 動詞 2 * 0 母音動詞 1 基本形 2 "代表表記:食べる/たべる ドメイン:料理・食事" EOS

半角区切りで、次のように形態素に分解してくれます
0 表層形
1 読み
2 見出し語
3 品詞大分類
4 品詞大分類ID
5 品詞細分類
6 品詞細分類ID
7 活用型
8 活用型ID
9 活用形
10 活用形ID
11 意味情報 未定義語の場合 "品詞推定:名詞" など推定が入ったりする

テキスト化されたものをjumanppに食べさせて、名詞と未定義語を頻出単語順に並べてみました。

1 データ 146回
2 こと 87
3 の 66
4 形 53
5 もの 44
6 オープン 41
7 アプリ 41
8 方 40
9 SPARQL 34
10 ところ 30

データと146回も言ってたんですね!(登場名詞数は700ほど!)

特徴ある名詞や、名詞間の近さなどを使って、重要語のリアルタイム解説とかおもしろそうです。

先日の電脳メガネサミット、書き起こしの第一弾が公開されたので、合わせてどうぞ!
『電脳コイル』の世界は実現可能か? 日本発、メガネ型ウェアラブル端末の“いま”に迫る - ログミー

Tweet
クリエイティブ・コモンズ・ライセンス
本ブログの記事や写真は「Creative Commons — CC BY 4.0」の下に提供します。記事内で紹介するプログラムや作品は、それぞれに記載されたライセンスを参照ください。
CC BY / @taisukef / アイコン画像 / プロフィール画像 / 「一日一創」画像 / RSS