青空文庫の三国志から類似語を抽出してみる
word2vecを使用することで単語をベクトルにしたり、類似度を判定することが可能となります。
実際に青空文庫の三国志からデータをダウンロードして類似語を抽出してみます。
事前準備
青空文庫の三国志のデータを分かち書き形式に変更する必要があるので、以下の手順にて分かち書きのデータに変換します。
分かち書きを行ったファイルは"wakachi_text.txt"という名前で保存されているので、ファイルを読み込んでいきます。
ソースコード
|
WAKACHI='wakachi_text.txt' from gensim.models import word2vec data = word2vec.LineSentence(WAKACHI) model = word2vec.Word2Vec(data,size=200, window=10, hs = 1, min_count =2, sg = 1) model.save('wakachi.model') print('終了') |
word2vecでの解析が終了しました。これにより類似語を抽出することが出来ます。また解析したデータは'wakachi.model'というファイル名で保存されるため以降は解析する必要がありません。
|
model.most_similar(positive=['黄河']) |
|
[('流れ', 0.7114909887313843), ('層', 0.6775339841842651), ('断り', 0.6713621616363525), ('黄土', 0.6575222015380859), ('畔', 0.6483287811279297), ('茜', 0.6046563982963562), ('汲ん', 0.598976731300354), ('下流', 0.5986632704734802), ('不断', 0.59590083360672), ('積', 0.5882973670959473)] |
|
model.most_similar(positive=['曹操']) |
|
[('忌憚', 0.6687122583389282), ('驍騎校', 0.6465766429901123), ('人となり', 0.6380614042282104), ('すかさず', 0.6254125237464905), ('曹操評', 0.619441032409668), ('沈黙', 0.6176513433456421), ('呼びつける', 0.613861083984375), ('消し止める', 0.6065189838409424), ('固唾', 0.604246973991394), ('せせら笑う', 0.5969706177711487)] |
|
model.most_similar(positive=['母']) |
|
[('しみる', 0.6807346343994141), ('痺れる', 0.6745223999023438), ('蓮根', 0.6730327606201172), ('ふところ', 0.6644001007080078), ('おろおろ', 0.6626030206680298), ('自責', 0.6566790342330933), ('孝心', 0.6496037244796753), ('かなしむ', 0.6472313404083252), ('褒める', 0.6437551379203796), ('失意', 0.6430232524871826)] |
類似しているような、していないような何ともいえないような結果となりましたが、雰囲気は伝わったかと思います。類似語を調査することにより、次にくる文章を事前に類推したりすることが出来ます。精度を高めるためには、もっと大量の文章の投入が必要となるため興味がある方はいろいろな文章で試してください。