2015/03/05(木)クローラの宿命

2015/03/05 21:27

開幕まで3週間になりました。

そろそろテンションが上がってきた方も大勢いらっしゃると思いますが、私はまだ開幕に向けての準備ができていません。日刊スポーツのサイトがリニューアルされて、拙作のスコアテーブル解析ツールpyslashが動かなくなってしまったからです。

すぐに直したいところではあるのですが、落ち着いて考える時間もあまりないので悩ましいところです。スコアテーブルの解析自体はそこまで大規模な処理ではないのですが、そこにたどり着くまでに結構凝ったことをやってるんですよねー。

  1. URLが指定された場合は、そのURLのスコアテーブルを解析する(一番基本的な処理)。
  2. チームが指定された場合は、右サイドに表示されている本日の試合結果の中から該当チームの試合を探し、そのリンク先のスコアテーブルを解析する。
  3. チームと日付が指定された場合は、該当チームの日程からその日付の試合を探し、そのリンク先のスコアテーブルを解析する。

さらに、クライマックスシリーズはもっと面倒なことをやっています。

  1. その年の順位表を解析して優勝チームを取得し、そのチームが戦っていればファイナルステージ、そうでなければファーストステージとして扱う。
  2. 指定された日付が前年以前の場合、過去の優勝チームの一覧ページから該当年度の優勝チームを拾い、以下同様の処理を行う。

HTMLを解析して辞書に変換するまでの処理はまるまる作り直しになりそうです。全体的に見れば、半分以上のソースは捨てることになりそう。開幕までに全部を直すのは厳しい状況ですが、基本処理だけは対応しておきたいと思います。