AmazonのElastic MapReduceを必要なときだけ使えるスーパーコンピューターとして使っている事例

IT ConversationsでAmazon Web Service (AWS)の1つであるElastic MapReduce (EMR)の事例紹介があった。いずれもAWSのデータ保存サービスであるS3を使っている会社が、EMRを必要なときだけ使える「スーパーコンピューター」として使っている、と紹介している。私自身は多数のサーバーから構成されるMapReduceクラスターを「スーパーコンピューター」とは捉えていなかったが、言われて見れば大規模な計算能力を提供してくれるわけで、スーパーコンピューターと言えると思う。
以下が、前述のリンク先のポッドキャストで紹介されている事例である。

Amazonが配送センターで、どの商品を鍵がかかる部分に置くか

Amazonでは世界全体で15億種類の商品を扱っていて、配送センターは200箇所に持っている。配送センターで商品の盗難を防ぐために、一部の商品は鍵がかかる部分に置いている。盗まれやすいものは、必ずしも高価なものとは限らない。発売直後で人気のあり、流通量が限られている電子機器は高価ではなくても盗難されやすい。いっぽう鍵がかかる部分に置ける商品の量には限りがある。それらを考慮してどの鍵がかかる部分に置く商品を決めなければならない。盗難を働く人は盗む価値があるものの変化に敏感なので、それに迅速に対応しなければならない。
S3に保存された15億種類の商品データに対して毎週1500万件の更新がある。それをElastic MapReduceを使って30分毎に分類しなおしている。

レストラン評価サイトYelp

Yelpは毎月5000万人が利用し、1800万件のレストラン評価が置かれている。Yelpは検索入力の自動訂正のデータを作成・更新するのに、ユーザーによる検索入力と、検索結果のクリックのデータを100台の仮想サーバーから構成されるElastic MapReduceクラスターで処理している。Yelpに在籍している80人のエンジニアは、週平均250回EMRを使ってデータ処理を行っている。

Cycle Computing社

Cycle Computing社は3万個のCPUコアを持つElastic MapReduceクラスターを使っている。もし、そのためのハードウェアを自前で構築したとすると1800万ドルかかる。それを同社は1時間当たり1300ドルで利用できる。