2016/03/06(日)思うように進まない
2016/03/06 21:13
今日もひたすらMeCabの辞書構築とWord2Vecのパラメータチューニングを繰り返していました。
>>> from gensim.models import word2vec >>> data = word2vec.Text8Corpus('blog.txt') >>> model = word2vec.Word2Vec(data, size=200) >>> result = model.most_similar([u'シアンフロッコ']) >>> for line in result: ... print line[0], line[1] ... パグリアルーロ 0.910436034203 アイケルバーガー 0.898095309734 ぃ 0.859727859497 = 0.858209729195 ち 0.853448629379 トレンティーノ 0.850795507431 H 0.847611784935 アニラン6 0.847504138947 ロリ 0.845181703568 B 0.84384483099
1位、2位、6位は完璧というほかありません。しかし、その間の3つは完全にゴミですね。
記号に関しては無視するようにプログラムを組めば解決するでしょう。一方、「ぃ」「ち」は「ちぃといつ」を誤って分割してしまった残骸のように見え、ちょっと悩ましいところです。MeCabの辞書には「ちぃといつ」を追加してあるんだけどなぁ……。
もう少し単語のコストを下げて、優先的に抽出されるようにしたほうがいいのかもしれませんね。