2016/03/06(日)思うように進まない

2016/03/06 21:13

今日もひたすらMeCabの辞書構築とWord2Vecのパラメータチューニングを繰り返していました。

>>> from gensim.models import word2vec
>>> data = word2vec.Text8Corpus('blog.txt')
>>> model = word2vec.Word2Vec(data, size=200)
>>> result = model.most_similar([u'シアンフロッコ'])
>>> for line in result:
...     print line[0], line[1]
...
パグリアルーロ 0.910436034203
アイケルバーガー 0.898095309734
ぃ 0.859727859497
= 0.858209729195
ち 0.853448629379
トレンティーノ 0.850795507431
H 0.847611784935
アニラン6 0.847504138947
ロリ 0.845181703568
B 0.84384483099

1位、2位、6位は完璧というほかありません。しかし、その間の3つは完全にゴミですね。

記号に関しては無視するようにプログラムを組めば解決するでしょう。一方、「ぃ」「ち」は「ちぃといつ」を誤って分割してしまった残骸のように見え、ちょっと悩ましいところです。MeCabの辞書には「ちぃといつ」を追加してあるんだけどなぁ……。

もう少し単語のコストを下げて、優先的に抽出されるようにしたほうがいいのかもしれませんね。