青空文庫の三国志から類似語を抽出してみる
word2vecを使用することで単語をベクトルにしたり、類似度を判定することが可能となります。
実際に青空文庫の三国志からデータをダウンロードして類似語を抽出してみます。
事前準備
青空文庫の三国志のデータを分かち書き形式に変更する必要があるので、以下の手順にて分かち書きのデータに変換します。
分かち書きを行ったファイルは"wakachi_text.txt"という名前で保存されているので、ファイルを読み込んでいきます。
ソースコード
1 2 3 4 5 6 7 |
WAKACHI='wakachi_text.txt' from gensim.models import word2vec data = word2vec.LineSentence(WAKACHI) model = word2vec.Word2Vec(data,size=200, window=10, hs = 1, min_count =2, sg = 1) model.save('wakachi.model') print('終了') |
1 |
model.most_similar(positive=['黄河']) |
1 2 3 4 5 6 7 8 9 10 |
[('流れ', 0.7114909887313843), ('層', 0.6775339841842651), ('断り', 0.6713621616363525), ('黄土', 0.6575222015380859), ('畔', 0.6483287811279297), ('茜', 0.6046563982963562), ('汲ん', 0.598976731300354), ('下流', 0.5986632704734802), ('不断', 0.59590083360672), ('積', 0.5882973670959473)] |
1 |
model.most_similar(positive=['曹操']) |
1 2 3 4 5 6 7 8 9 10 |
[('忌憚', 0.6687122583389282), ('驍騎校', 0.6465766429901123), ('人となり', 0.6380614042282104), ('すかさず', 0.6254125237464905), ('曹操評', 0.619441032409668), ('沈黙', 0.6176513433456421), ('呼びつける', 0.613861083984375), ('消し止める', 0.6065189838409424), ('固唾', 0.604246973991394), ('せせら笑う', 0.5969706177711487)] |
1 |
model.most_similar(positive=['母']) |
1 2 3 4 5 6 7 8 9 10 |
[('しみる', 0.6807346343994141), ('痺れる', 0.6745223999023438), ('蓮根', 0.6730327606201172), ('ふところ', 0.6644001007080078), ('おろおろ', 0.6626030206680298), ('自責', 0.6566790342330933), ('孝心', 0.6496037244796753), ('かなしむ', 0.6472313404083252), ('褒める', 0.6437551379203796), ('失意', 0.6430232524871826)] |