hirax.net::Tech-logs::2009-05-15

2009-05-15[n年前へ]

RubyでHadoopをラップ、分散処理ツールキットが登場 

 RubyでHadoopをラップ、分散処理ツールキットが登場~New York Timesがログ解析向けで自社開発したものを公表~

 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上の Hadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。
require 'mrtoolkit'
class MainJob < JobBase
  def job
    mapper CopyMap
    reducer UniqueCountReduce
    indir "logs"
    outdir "ip"
  end
end