
形態素解析 janome とは
こんにちは。
AI coordinatorの清水秀樹です。
簡単に説明しますと、自然言語の文章を意味を持つ最長単位に分割し、品詞を判別することができるライブラリです。
とても簡単に利用できるので、紹介します。
形態素解析 janome を使ってみると、日本語をどのように解析しているのか一目瞭然です。
機械学習を利用したテキスト解析を勉強してみたい方は、ぜひ一度使ってみてください。
参考にした書籍
これからDeep Learningの勉強をするなら、こちらで紹介する書籍が参考になります。
janomeのインストール
以下のコマンド1行で簡単いインストールできます。
$ sudo pip install janome
janomeは実行も簡単
インストールができたら、早速pythonで実行してみましょう。
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize(u'北斗神拳は究極の暗殺拳だ!'):
... print(token)
...
北斗 名詞,一般,*,*,*,*,北斗,ホクト,ホクト
神 名詞,接尾,一般,*,*,*,神,シン,シン
拳 名詞,一般,*,*,*,*,拳,コブシ,コブシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
究極 名詞,一般,*,*,*,*,究極,キュウキョク,キューキョク
の 助詞,連体化,*,*,*,*,の,ノ,ノ
暗殺 名詞,サ変接続,*,*,*,*,暗殺,アンサツ,アンサツ
拳 名詞,接尾,一般,*,*,*,拳,ケン,ケン
だ 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
! 記号,一般,*,*,*,*,!,!,!
>>>
以上です。
どうですか?
とても簡単にできますよね。
形態素解析 janome の紹介でした。
[自然言語処理]
それではまた。
LEAVE A REPLY