2007年へ/ 2008年へ/ 2009年へ/ 2010年へ/ 2011年へ/ 2012年へ/
2010-01-27[n年前へ]
■RubyとHadoopで分散処理 Hadoop Streamingの仕組み
「RubyとHadoopで分散処理 Hadoop Streamingの仕組み」
Hadoopとは,Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので,分散処理のフレームワークです。Hadoopを使うと,1台のサーバでは時間の掛かるような処理を,複数のサーバで分散処理させることができます。
さて,実際にHadoopを使うには2つの方法があります。1つは,もともとHadoopはJavaで作られたものなのでJavaで記述する方法,もう1つはHadoop Streamingという仕組みを使って,Java以外の(標準入出力に対応している)言語で記述する方法です。
今回はRubyを使いたかったため,Hadoop Streamingを利用しました。