2016/02/11(木)解析以前のところに立ちはだかる壁
2016/02/11 22:27
昨日に引き続いてWord2Vecのお話です。
このブログはプロ野球とクイズマジックアカデミーの話題が中心になっています。そのような文章を解析しようと思うと、プロ野球はともかく、QMAに関しては独特の用語でつまづいてしまいます。
Qiitaの記事を参考にして、Wikipediaの見出し語とはてなキーワードをベースにしたユーザー辞書を作成したものの、これもQMAの用語を解析するのにはほとんど役に立ちません。どうやらQMA関係の単語は自力でユーザー辞書を構築する必要がありそうです。
まずは、解析を難しくしている諸悪の根源とも言える、私の歴代カードネームたち。
- さいれんす
- ちぃといつ
- パグリアルよ
- シアンフロこ
- ポニーともり
- ねつれつかんげい
- ぱいそにすた
1単語として認識できず、微妙な位置で分割されてしまうことの多い階級。
- 修練生
- 見習魔術士
- 初級魔術士
- 中級魔術士
- 上級魔術士
- 魔道士
- 大魔道士
- 賢者
- 大賢者
- 青銅賢者
- 白銀賢者
- 黄金賢者
- 白金賢者
- 金剛賢者
- 金剛天賢者
- 天青賢者
- 天青天賢者
- 紅玉賢者
- 紅玉天賢者
- 翡翠賢者
- 翡翠天賢者
- 黄玉賢者
- 黄玉天賢者
- 琥珀賢者
- 琥珀天賢者
- 瑠璃賢者
- 瑠璃天賢者
- 紫宝賢者
- 紫宝天賢者
大字がネックになっている、賢者以降の段位。
- 初段
- 弐段
- 参段
- 肆段
- 伍段
- 陸段
- 漆段
- 捌段
- 玖段
- 拾段
難しく考えずに機械的に潰せるのはこのくらいだと思います。
それ以外でなんとかしたいのは形式名、ほかのプレイヤーのカードネームです。
形式名については、つねに正式名称で書いているとは限りませんので、考えられる略称を網羅する必要があります。そうなると、すべての形式に対応するのは難しそうなので、武器にしたことがある形式だけをフォローするというのはありかもしれません。
- スポーツランダム1
- スポラン1
- スポ1
- アニメ&ゲーム並べ替え
- アニゲ並べ替え
- アニ並
- アニメ&ゲームパネル
- アニゲパネル
- アニパネ
- ライフスタイルその他
- ライスタその他
- ライ他
- 文系学問その他
- 文系その他
- 文他
- 理系学問スロット
- 理系スロット
- 理スロ
- 芸能タイピング
- 芸タイ
ほかのプレイヤーのお名前については、ランキングのページをスクレイピングして辞書を作るという方法が考えられます。もっとも、私が記事中でお名前に言及するケースのことを考えると、南流山に集うメンバーの名前を登録するだけで充分なのではないかという気もしますが。