概要
Pythonでは形態素解析を行うためのライブラリが充実しています。janomeはその形態素解析のライブラリの一つです。形態素解析とは検索エンジンにも用いられている自然言語処理の手法の一つで、ある文章・フレーズを「意味を持つ最小限の単位(=単語)」に分解し、文章やフレーズの内容を判断するために用いられます。文章を単語ごとに区切って書くことを「分かち書き」とも呼びます。
形態素解析を行う
1 2 3 4 5 |
from janome.tokenizer import Tokenizer t = Tokenizer() tokens = t.tokenize('JanomeはPythonで書かれた形態素解析器です') for token in tokens: print(token) |
1 2 3 4 5 6 7 8 9 10 11 |
Janome 名詞,固有名詞,組織,*,*,*,Janome,*,* は 助詞,係助詞,*,*,*,*,は,ハ,ワ Python 名詞,一般,*,*,*,*,Python,*,* で 助詞,格助詞,一般,*,*,*,で,デ,デ 書か 動詞,自立,*,*,五段・カ行イ音便,未然形,書く,カカ,カカ れ 動詞,接尾,*,*,一段,連用形,れる,レ,レ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ 解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ 器 名詞,接尾,一般,*,*,*,器,キ,キ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス |
見出しのみを取り出す
1 2 3 4 5 |
from janome.tokenizer import Tokenizer t = Tokenizer() tokens = t.tokenize('JanomeはPythonで書かれた形態素解析器です') for token in tokens: print(token.surface) |
1 2 3 4 5 6 7 8 9 10 11 |
Janome は Python で 書か れ た 形態素 解析 器 です |
品詞を取り出す
1 2 3 4 5 |
from janome.tokenizer import Tokenizer t = Tokenizer() tokens = t.tokenize('JanomeはPythonで書かれた形態素解析器です') for token in tokens: print(token.part_of_speech) |
1 2 3 4 5 6 7 8 9 10 11 |
名詞,固有名詞,組織,* 助詞,係助詞,*,* 名詞,一般,*,* 助詞,格助詞,一般,* 動詞,自立,*,* 動詞,接尾,*,* 助動詞,*,*,* 名詞,一般,*,* 名詞,サ変接続,*,* 名詞,接尾,一般,* 助動詞,*,*,* |