Wordcount -- MapReduce example -- Reducer

Reducer receives (key, values) pairs and aggregate values to a desired format, then write produced (key, value) pairs back into HDFS.

Reducer Class Prototype:

Reducer<Text, IntWritable, Text, IntWritable>
// Text:: INPUT_KEY
// IntWritable:: INPUT_VALUE
// Text:: OUTPUT_KEY
// IntWritable:: OUTPUT_VALUE

Reduce Method for Mapper

Method header

public void reduce(Text key, Iterable<IntWritable> values,
                     Context context
                     ) throws IOException, InterruptedException
// Text key:: Declare data type of input key;
// Iterable<IntWritable> values:: Declare data type of input values; (Note: Received values from mapper should be in a list)
// Context context:: Declare data type of output. Context is often used for output data collection.

Aggregate Values

// Iterate through all the values wrt the key:
int sum = 0;
for (IntWritable val : values) {
  sum += val.get();
}

Building (key, value) pairs

// Convert built-in int into IntWritable
result.set(sum);
// build (key, value) pair into Context and emit:
context.write(key, result);

Reducer Class Summary

Reducer class produces Reducer.Context object and serialize obtained (key, value) pair into HDFS.

Overview of Reducer Class

public static class IntSumReducer
     extends Reducer<Text,IntWritable,Text,IntWritable> {
  private IntWritable result = new IntWritable();

  public void reduce(Text key, Iterable<IntWritable> values,
                     Context context
                     ) throws IOException, InterruptedException {
    int sum = 0;
    for (IntWritable val : values) {
      sum += val.get();
    }
    result.set(sum);
    context.write(key, result);
  }
}

Written with StackEdit.

原文地址：https://www.cnblogs.com/LexLuc/p/9571033.html

时间： 2024-10-29 22:18:35

Wordcount -- MapReduce example -- Reducer的相关文章

hadoop2x WordCount MapReduce

package com.jhl.haoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWrit

hadoop2.2.0的WordCount程序

package com.my.mapreduce.wordcount; import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.

【Hadoop】Hadoop mr wordcount基础

1.基本概念 2.Mapper package com.ares.hadoop.mr.wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; //Long, String,

MapReduce原理与设计思想

转载自: http://blog.jobbole.com/80619/ 简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃? MapReduce方法则是: 给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分 MapReduce合并了两种经典函数: 映射(Mapping)对集合里的每个目标应用同一个操作.即,如果你想把表单里每个单

一文读懂MapReduce 附流量解析实例

1.MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集.这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集. 2 MapReduce做什么 MapReduce擅长处理大数据,它为什么具有这种能力呢?这可由MapReduce的设计思想发觉.MapReduce的思想就是“

Hadoop之MapReduce程序分析

摘要:Hadoop之MapReduce程序包括三个部分:Mapper,Reducer和作业执行.本文介绍和分析MapReduce程序三部分结构. 关键词:MapReduce Mapper Reducer 作业执行 MapReduce程序包括三个部分,分别是Mapper,Reducer和作业执行. Mapper 一个类要充当Mapper需要继承MapReduceBase并实现Mapper接口. Mapper接口负责数据处理阶段.它采用形式为Mapper<K1,V1,K2,V2>的Jav

[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat

在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat和OutputFormat,就可以完成这个需求,这里简单的介绍一个从MongoDB中读数据,并写出数据到MongoDB中的一种情况,只是一个Demo,所以数据随便找的一个. 一.自定义InputFormat MapReduce中Map阶段的数据输入是由InputFormat决定的,我们查看org.a

MapReduce编写的正确姿势

先看一下目录结构这里是job接口,负责参数的传递和定时的调用下面的图是MR 程序相关的目录图片,其中MR的入口程序负责读取数据,并指定对应的Map.Reduce程序. 程序的流程首先简单的说一下,整体的流程: 首先是一个Job(定时任务),定时调用入口程序,拼装参数. job调用 MR的入口程序,入口程序获得job传入的参数,根据参数获得所需的数据:可以去Hbase.mysql.HDFS中获取数据:这个文件会配置job名.要调用的Mapper.Reduce,添加需要的jar包数据传入M

基于朴素贝叶斯分类器的文本分类

实验要求题目要求 1.用MapReduce算法实现贝叶斯分类器的训练过程,并输出训练模型: 2.用输出的模型对测试集文档进行分类测试.测试过程可基于单机Java程序,也可以是MapReduce程序.输出每个测试文档的分类结果: 3.利用测试文档的真实类别,计算分类模型的Precision,Recall和F1值. 2．实验环境实验平台:VMware Workstation10 虚拟机系统:Suse11 集群环境:主机名master ip:192.168.226.129 从机名slave1