2016/02/10(水)中間報告

2016/02/10 23:49

先日からWord2Vecでこのブログの文章を解析して遊んでいます。

たとえば、トップクラスで登場回数が多いであろう単語の「ルキア」で試してみた場合。

>>> from gensim.models import word2vec
>>> data = word2vec.Text8Corpus('blog.txt')
>>> model = word2vec.Word2Vec(data, size=200)
>>> result = model.most_similar([u'ルキア'])
>>> for line in result:
...     print line[0], line[1]
...
乳 0.89840221405
たん 0.862920045853
巨乳 0.857208371162
おっぱい 0.838615298271
ツンデレ 0.835276961327
シャロン 0.823800504208
ミランダ 0.822859883308
先生 0.818835616112
神 0.811951637268
アイケルバーガー 0.801456212997
>>>

1、3、4位は当然の結果といえるでしょう。2位も「ルキアたん」という書き方を何度かしていたことを考えれば納得です。10位は見なかったことにしておいてください。