2009年11月25日水曜日

MapReduce

MapReduceとは、2004年にGoogle社が発表した、大規模なデータを分散処理するためのプログラミングモデル。同社の検索エンジンのインデックス(索引)データの作成や、アクセスログの統計解析など、様々な用途に利用されている。

 MapReduceでは、データの処理をmap処理とreduce処理の2段階に分けて行なう。map処理は、分割されたデータの断片に何らかの加工を施し、必要な情報を抽出する。reduce処理は、mapで抽出した情報を束ねて、データ全体についての整理された処理結果を得る。

 大規模なデータ処理を行ないたいプログラマは、mapとreduceの処理内容を定義してMapReduceシステムに処理を依頼する。MapReduceシステムはデータを分割し、必要な数のコンピュータを使って並列にmapとreduceを実行し、処理結果を返す。

0 件のコメント:

コメントを投稿