MapReduce 编程系列九使用HashPartitioner来调节Reducer的计算负载

example4演示了如何指定Reducer的数量，本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大，从而整体reduce的性能更加均衡。

Reducer的数量由HashPartitioner函数getPartition返回值来确定。

public int getPartition(K2 key, V2 value, int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) & numReduceTasks;
}

上面的代码表示根据key的hash code 除以2的31次方后取余数，用该余数再次除以reducer的数量，再取余数。得到的结果才是这个key对应的partition的编号。

原因是 Integer.MAX_VALUE是2的31次方-1, 一个数如果和一个2的N次方-1的数按位与就等价于这个数对2的N次方取余数。

参考我的文档：

http://blog.csdn.net/csfreebird/article/details/7355282

所有计算出来属于同一个partition的key，以及它的value都会被发送到对应的reducer去做处理。

所以结论如下：

partitioner不会改变reducer的数量，而会决定哪些<key,value>进入哪个组，从而改变reducer处理的数据的量

我的example5就是采用了hash partitioner. 在example4的基础上，仅仅修改了LogJob.java的一行代码：

        job.setPartitionerClass(HashPartitioner.class);

时间： 2024-10-23 16:41:54

MapReduce 编程系列九使用HashPartitioner来调节Reducer的计算负载的相关文章

MapReduce 编程系列九 Reducer数目

本篇介绍怎样控制reduce的数目.前面观察结果文件,都会发现通常是以part-r-00000 形式出现多个文件,事实上这个reducer的数目有关系.reducer数目多,结果文件数目就多. 在初始化job的时候.是能够设置reducer的数目的.example4在example的基础上做了改动.改动了pom.xml.使得结束一个參数作为reducer的数目.改动了LogJob.java的代码,作为设置reducer数目. xsi:schemaLocation="http://maven.ap

学习ASP.NET Core Razor 编程系列九——增加查询功能

学习ASP.NET Core Razor 编程系列目录学习ASP.NET Core Razor 编程系列一学习ASP.NET Core Razor 编程系列二——添加一个实体学习ASP.NET Core Razor 编程系列三——创建数据表及创建项目基本页面学习ASP.NET Core Razor 编程系列四——Asp.Net Core Razor列表模板页面学习ASP.NET Core Razor 编程系列五——Asp.Net Core Razor新建模板页面学习ASP.NET C

MapReduce 编程系列八根据输入路径产生输出路径和清除HDFS目录

有了前面的MultipleOutputs的使用经验,就可以将HDFS输入目录的路径解析出来,组成输出路径,这在业务上是十分常用的.这样其实是没有多文件名输出,仅仅是调用了MultipleOutputs的addNamedOutput方法一次,设置文件名为result. 同时为了保证计算的可重入性,每次都需要将已经存在的输出目录删除. 先看pom.xml, 现在参数只有一个输入目录了,输出目录会在该路径后面自动加上/output. <project xmlns="http://maven.ap

MapReduce 编程系列十二 Reduce阶段内部细节和调节参数

Reduce计算分为若干阶段 1. copy(或者叫shuffle)阶段和merge阶段并行之前Map产生的结果被存放在本地磁盘上,这时需要从reduce节点将数据从map节点复制过来.放得下进内存,比较大的则写到本地磁盘. 同时,有两个线程对已经获得的内存中和磁盘上的数据进行merge操作. 具体细节是: 通过RPC调用询问task tracker已经完成的map task列表,shuffle(洗牌)是对所有的task tracker host的洗牌操作,这样可以打乱copy数据的顺序,防止

MapReduce 编程系列五 MapReduce 主要过程梳理

前面4篇文章介绍了如何编写一个简单的日志提取程序,读取HDFS share/logs目录下的所有csv日志文件,然后提取数据后,最终输出到share/output目录下. 本篇停留一下,梳理一下主要过程,然后提出新的改进目标. 首先声明一下,所有的代码都是maven工程的,没有使用任何IDE. 这是我一贯的编程风格,用Emacs + JDEE开发.需要使用IDE的只需要学习如何在IDE中使用maven即可. 可比较的序列化第一个是序列化,这是各种编程技术中常用的.MapReduce的特别之处

MapReduce 编程系列十二用Hadoop Streaming技术集成newLISP脚本

本文环境和之前的Hadoop 1.x不同,是在Hadoop 2.x环境下测试.功能和前面的日志处理程序一样. 第一个newLISP脚本,起到mapper的作用,在stdin中读取文本数据,将did作为key, value为1,然后将结果输出到stdout 第二个newLISP脚本,起到reducer的作用,在stdin中读取<key, values>, key是dic, values是所有的value,简单对value求和后,写到stdout中最后应该可以在HDFS下看到结果. 用脚本编程的

MapReduce 编程系列六 MultipleOutputs使用

在前面的例子中,输出文件名是默认的: _logs part-r-00001 part-r-00003 part-r-00005 part-r-00007 part-r-00009 part-r-00011 part-r-00013 _SUCCESS part-r-00000 part-r-00002 part-r-00004 part-r-00006 part-r-00008 part-r-00010 part-r-00012 part-r-00014 part-r-0000N 还有一个_SUC

MapReduce 编程系列四 MapReduce例子程序运行

MapReduce程序编译是可以在普通的Java环境下进行,现在来到真实的环境上运行. 首先,将日志文件放到HDFS目录下 $ hdfs dfs -put *.csv /user/chenshu/share/logs/ 14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where app

MapReduce编程系列 — 3：数据去重

1.项目名称: 2.程序代码: package com.dedup; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce

MapReduce 编程 系列九 使用HashPartitioner来调节Reducer的计算负载

MapReduce 编程 系列九 使用HashPartitioner来调节Reducer的计算负载的相关文章

MapReduce 编程系列九使用HashPartitioner来调节Reducer的计算负载

MapReduce 编程系列九使用HashPartitioner来调节Reducer的计算负载的相关文章