2016/02/10(水)中間報告
2016/02/10 23:49
先日からWord2Vecでこのブログの文章を解析して遊んでいます。
たとえば、トップクラスで登場回数が多いであろう単語の「ルキア」で試してみた場合。
>>> from gensim.models import word2vec >>> data = word2vec.Text8Corpus('blog.txt') >>> model = word2vec.Word2Vec(data, size=200) >>> result = model.most_similar([u'ルキア']) >>> for line in result: ... print line[0], line[1] ... 乳 0.89840221405 たん 0.862920045853 巨乳 0.857208371162 おっぱい 0.838615298271 ツンデレ 0.835276961327 シャロン 0.823800504208 ミランダ 0.822859883308 先生 0.818835616112 神 0.811951637268 アイケルバーガー 0.801456212997 >>>
1、3、4位は当然の結果といえるでしょう。2位も「ルキアたん」という書き方を何度かしていたことを考えれば納得です。10位は見なかったことにしておいてください。