2012/03/25(日)第5回 Twitter API勉強会 #twtr_hack

2012/03/25 22:08

ブログに書くまでが勉強会とのことなので、21日に開催されたTwitter API勉強会のメモをまとめてみます。

Twitterの日本語検索、ハッシュタグについて

Twitterの検索機能などについてのお話。

検索についてはFirehoseでツイートを取得→ingesterでツイートを解析→EarlyBirdでリアルタイム検索→Blenderでクエリ解析→フロントエンドへ渡す、という流れで処理を行っているとのことでした。Firehose以外は聞いたことがなかったので、いまいちよく分かっていないのですが……。すみません、勉強不足ですね。

トレンドについては、ツイートの位置情報から数を集計しているそうです。ただし、単にツイート数が多いものを集計すると"Lady Gaga"のようなキーワードは常に上位に来てしまうので、過去の集計値も使用して、その瞬間に突発的にツイート数が増えたワードをトレンドに上げるようにしているとのことでした。

また、言語の判定は、例えばひらがながあれば日本語、ハングルがあれば韓国語、というところまではすぐに分かるけれど、漢字は日本語も中国語もありえるので、Shift_JISに変換してみて失敗すれば中国語、GBに変換してみて失敗すれば日本語、という判断をしているそうです。力技っぽくはありますが、確かにそれが一番効率がいい気はしますね。

ちなみに、日本語の形態素解析にはGomokuを使っているとのこと。知らない単語ばかり出てきている中で、急になじみのある単語が出てきてテンションが上がりましたw jarファイルですべてが完結していますし、本当に使いやすいですよね。

また、顔文字の判定には正規表現を使っているとのことでしたが、どんなすごい正規表現なのか気になりますw

ランチタイム共有サービス「昼会」のご紹介

ランチタイム共有サービス昼会のお話。

http://www.hirukai.jp/

当初はLinkedInを利用して、ビジネスランチ的なものを考えていたそうですが、当時のユーザー数が少なかったことや、個人情報をさらけ出す必要があってハードルが上がってしまうので、TwitterのOAuth認証を使うことにしたそうです。

Twitterとの連携にはTweepyを使用しているとのこと。ここでも馴染みのある単語が出てきてテンションが上がりましたw 個人的にはpython-twitterよりTweepyのほうが使いやすいと思っています。

サーバはGAEを使用しているそうなのですが、去年の料金改定で、それまで数千円に収まっていた使用料が一気に2、3万円に跳ね上がってしまったらしいです。今はカスタマイズして数千円のオーダーに抑えているらしいですが、やっぱり料金改定は多大な影響を与えていたんだなぁ。

Twitter 4 contact

問い合わせフォームをTwitterを通した形で作ろうという試み。メールベースでは関係者間のCCが漏れる、返信を忘れる、二重に返信をする……という可能性がありますが、それを避けたいという意図のようです。

「とにかく簡単に」という方針だそうですが、GitHub公開されているソースを *1 拝見したところ、「簡単」というよりは「手間が少ない」という感じですよね。それは決して易しいことではない。こういうのをサラッとできるのは凄いと思います。

PerlTwitterモジュールについて

Perlは「古くからある」言語だけど「古い」言語ではない、というお話が印象的でした。ただ、古くからあるが故に古い情報がネット上に転がっているのがネックになっていると。

Perlbrewで現在の環境を汚さずにPerl環境を作れるとのことなので、ちょっと勉強してみようかなーと思いました。

KotlinでもTwitter4J

KotlinというJVM言語のお話。初めて聞く名前でした。アンテナ低いな、俺。

型推論やクロージャといった今風の機能よりも、「Javaより簡単」「Javaより安全」という点が大きいように感じました。nullを許す型と許さない型を明確に分けるとか、配列をなくしてジェネリッククラスにするとか、これはいいなーと思いました。ただ、JVM言語って数が多すぎて、どれを勉強するべきなのかピンと来ないんですよね……。

反省

手書きメモが雑すぎて何を書いたか読めないところがあるwww 次回はMacBook Air持って行こう……。

*1:https://github.com/indare/twitterLT

2012/03/24(土)ソフトバンクが福岡ドームを870億円で買い取り

2012/03/24 21:48

ソフトバンクが870億円で福岡ドームを買い上げるそうです。

ソフトバンク、870億でヤフーD買い取りへ - プロ野球ニュース : nikkansports.com
http://www.nikkansports.com/baseball/news/f-bb-tp0-20120324-922337.html

Wikipediaによれば福岡ドームの建築費は760億円らしいのですが、スポーツ設備の減価償却の耐用年数は30年となっています *1 。あと10年ほどということを考えると、870億はちょっと高すぎるような気がしないでもありません。確かオリックスが大阪ドームを買ったときは100億行っていなかったような……。

ただ、会計上の話では870億は高いように見えますが、そもそも福岡ドームの20年の使用契約が継続中であることを考えると、これからは48億の使用料を払わなくてもいいのは大きいです。また、30年という期間は会計上の耐用年数であって、建築物としての耐用年数ではありませんから、別に10年後に取り壊さないといけないわけでもありません。

そして、記事中にもあるように、改修を自由に行えるようになるのも大きいですし、そして何より日本脳神経外科学会の動向を気にせずに日本シリーズを開催することができます。そういう意味では、親会社が絶好調なこの時期に球場を自前のものにしてしまうのも悪くないのかもしれませんね。

*1:http://www.geocities.co.jp/WallStreet/5430/ULT_003.html

2012/03/23(金)大は小を兼ねない

2012/03/23 23:32

iPhoneは4.6インチRetina Display搭載、第2四半期中に発表か - ITmedia ニュース
http://www.itmedia.co.jp/news/articles/1203/22/news063.html

私はiPhone4Sを使っていますので次のiPhoneは見送りになりますから、発売時期は割とどうでもいいんですが、ディスプレイサイズは非常に気になるところです。

というのも、今のiPhoneの3.5インチのディスプレイが、私が片手で操作できるギリギリのサイズだからです。これより大きくなると、もう画面左上あたりに指は届かなくなるでしょう。そうなると両手持ちになってしまうのですが、私はスマホの両手持ちが嫌いです。法で規制して欲しいと思うくらいに嫌いです。だって、電車でつり革に捕まらずにフラフラしながらスマホを操作する阿呆は邪魔じゃないですか。

iPhoneは3Gから使っているのでそれなりに思い入れはありますが、逆に言えばそれなりの思い入れしかないので、サイズが大きくなるようであれば次に使う端末は別の機種になりそうです。まぁ、デマばかり流れるApple製品なので、正式発表されてもいないのに踊らされるのも気が早いようにも思いますがw

2012/03/22(木)埼玉西武ライオンズプレイヤーズきっぷ

2012/03/22 23:50

ライオンズの本拠地開幕戦に合わせて「埼玉西武ライオンズプレイヤーズきっぷ」が発売されるそうです。

ニュース | 埼玉西武ライオンズ・オフィシャルサイト
http://www.seibulions.jp/news/detail/5945.html

弊ブログ一押しの星孝がラインナップに含まれています。レギュラー、ローテーションが期待される13人の中に入っているのは本当に凄い。今年は球団にも期待されているんですね。この期待に応えられるように頑張ってください。

しかし、西口も星孝も300枚かー。すげぇ欲しいんだけど、仕事を休まないと無理っぽいな。

2012/03/21(水)HTML5の空要素

2012/03/20 25:56

今まで知らなかったのですが、HTML5は空要素を /> で閉じることができるんですね。

HTML の空要素(たとえば、br, img, input 要素)に終端スラッシュをいれる必要はありません。<br /> の代わりに <br> と書けば良いだけです。これは HTML4 と同じです。しかし、XHTML1 の利用が広まっているため、かなり多くのページで、終端スラッシュが使われています。そのため、XHTML1 から HTML への移行を容易にするために、終端スラッシュの構文を HTML の空要素で使うことができるようになりました。

WHATWG FAQ - 日本語訳 - HTML5.JP

今業務で携わっているシステムは、独自フレームワークJSPに空要素を吐き出す際に問答無用で終端にスラッシュを入れてくれるのですが、「このシステムってHTML4.01じゃなくてXHTML1.0にしなきゃ駄目じゃね?」といういかにも原理主義者な提案をしたものの、それ以上にヤバい問題が多発したために放置されています *1

……まぁ、そんなオレオレフレームワークの話はどうでも良くて、こういう風にXMLの要素をそのまま吐き出してしまうようなフレームワークは特に珍しくもないので、Webアプリ開発者としては嬉しい仕様かもしれません。

*1:そもそもHTML4.01で終端スラッシュを入れたとしても、ちゃんと表示されますしね。