2012/03/25(日)第5回 Twitter API勉強会 #twtr_hack

2012/03/25 22:08

ブログに書くまでが勉強会とのことなので、21日に開催されたTwitter API勉強会のメモをまとめてみます。

Twitterの日本語検索、ハッシュタグについて

Twitterの検索機能などについてのお話。

検索についてはFirehoseでツイートを取得→ingesterでツイートを解析→EarlyBirdでリアルタイム検索→Blenderでクエリ解析→フロントエンドへ渡す、という流れで処理を行っているとのことでした。Firehose以外は聞いたことがなかったので、いまいちよく分かっていないのですが……。すみません、勉強不足ですね。

トレンドについては、ツイートの位置情報から数を集計しているそうです。ただし、単にツイート数が多いものを集計すると"Lady Gaga"のようなキーワードは常に上位に来てしまうので、過去の集計値も使用して、その瞬間に突発的にツイート数が増えたワードをトレンドに上げるようにしているとのことでした。

また、言語の判定は、例えばひらがながあれば日本語、ハングルがあれば韓国語、というところまではすぐに分かるけれど、漢字は日本語も中国語もありえるので、Shift_JISに変換してみて失敗すれば中国語、GBに変換してみて失敗すれば日本語、という判断をしているそうです。力技っぽくはありますが、確かにそれが一番効率がいい気はしますね。

ちなみに、日本語の形態素解析にはGomokuを使っているとのこと。知らない単語ばかり出てきている中で、急になじみのある単語が出てきてテンションが上がりましたw jarファイルですべてが完結していますし、本当に使いやすいですよね。

また、顔文字の判定には正規表現を使っているとのことでしたが、どんなすごい正規表現なのか気になりますw

ランチタイム共有サービス「昼会」のご紹介

ランチタイム共有サービス昼会のお話。

http://www.hirukai.jp/

当初はLinkedInを利用して、ビジネスランチ的なものを考えていたそうですが、当時のユーザー数が少なかったことや、個人情報をさらけ出す必要があってハードルが上がってしまうので、TwitterのOAuth認証を使うことにしたそうです。

Twitterとの連携にはTweepyを使用しているとのこと。ここでも馴染みのある単語が出てきてテンションが上がりましたw 個人的にはpython-twitterよりTweepyのほうが使いやすいと思っています。

サーバはGAEを使用しているそうなのですが、去年の料金改定で、それまで数千円に収まっていた使用料が一気に2、3万円に跳ね上がってしまったらしいです。今はカスタマイズして数千円のオーダーに抑えているらしいですが、やっぱり料金改定は多大な影響を与えていたんだなぁ。

Twitter 4 contact

問い合わせフォームをTwitterを通した形で作ろうという試み。メールベースでは関係者間のCCが漏れる、返信を忘れる、二重に返信をする……という可能性がありますが、それを避けたいという意図のようです。

「とにかく簡単に」という方針だそうですが、GitHub公開されているソースを *1 拝見したところ、「簡単」というよりは「手間が少ない」という感じですよね。それは決して易しいことではない。こういうのをサラッとできるのは凄いと思います。

PerlTwitterモジュールについて

Perlは「古くからある」言語だけど「古い」言語ではない、というお話が印象的でした。ただ、古くからあるが故に古い情報がネット上に転がっているのがネックになっていると。

Perlbrewで現在の環境を汚さずにPerl環境を作れるとのことなので、ちょっと勉強してみようかなーと思いました。

KotlinでもTwitter4J

KotlinというJVM言語のお話。初めて聞く名前でした。アンテナ低いな、俺。

型推論やクロージャといった今風の機能よりも、「Javaより簡単」「Javaより安全」という点が大きいように感じました。nullを許す型と許さない型を明確に分けるとか、配列をなくしてジェネリッククラスにするとか、これはいいなーと思いました。ただ、JVM言語って数が多すぎて、どれを勉強するべきなのかピンと来ないんですよね……。

反省

手書きメモが雑すぎて何を書いたか読めないところがあるwww 次回はMacBook Air持って行こう……。

*1:https://github.com/indare/twitterLT