Mapreduce中自定义分区

Reducer任务的数据来自于Mapper任务，也就说Mapper任务要划分数据，对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。

默认的分区类是HashPartitioner，是处理Mapper任务输出的，getPartition()方法有三个形参，key、value分别指的是Mapper任务的输出，numReduceTasks指的是设置的Reducer任务数量，默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务，最终只能输出到一个文件中。

据此分析，如果想要自定义分区，最终输出到多个文件中，在Mapper任务中对数据应该划分到多个区中。那么，我们只需要覆盖Partitioner类的getpartition(…)，按照一定的规则让getPartition(…)方法的返回值是0,1,2,3…。并在驱动中进行两个设置。

时间： 2024-11-03 01:39:11

Mapreduce中自定义分区的相关文章

关于MapReduce中自定义分区类（四）

MapTask类在MapTask类中找到run函数 if(useNewApi){ runNewMapper(job, splitMetaInfo, umbilical, reporter); } 再找到runNewMapper @SuppressWarnings("unchecked") private<INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(final JobConf job,

在hadoop作业中自定义分区和归约

当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理那么我们可以通过自定义的分区类来实现还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设置默认分区的代码,见代码: //1.3分区 //设置自定义分区类 job.setPartitionerClass(JPartitioner.class); //设置分区个数--这里设置成2,代表输出分为2个区,由两个reducer输出 job.setNumReduceTasks(2); 自定义的JP

关于MapReduce中自定义分组类（三）

Job类 /** * Define the comparator that controls which keys are grouped together * for a single call to * {@link Reducer#reduce(Object, Iterable, * org.apache.hadoop.mapreduce.Reducer.Context)} * @param cls the raw

关于MapReduce中自定义Combine类（一）

MRJobConfig public static fina COMBINE_CLASS_ATTR 属性COMBINE_CLASS_ATTR = "mapreduce.job.combine.class" ————子接口(F4) JobContent 方法getCombinerClass ————子实现类 JobContextImpl 实现getCombinerClass方法: public Class<? extends Reducer<?,?,?,?>> g

GreenPlum中自定义分区维护函数

GreenPlum中的分区表在数据量较大的情况下对于提升查询性能的帮助非常的,但是GreenPlum本身并没有提供分区表自动维护的工具,这里我们利用GreenPlum的PL/SQL自定义两个分区表自动维护的存储过程(也可以成为函数). 创建存储过程之前首先要创建一个记录分区表详细信息的视图,这里可以参见上篇博文.由于业务中有多张表需要做分区,而且分区字段的类型并不一样,因此我们首先创建一张字典表,记录每张表的分区类型,如下: CREATE TABLE op_tb_partition ( tb

Hadoop学习之路(6)MapReduce自定义分区实现

MapReduce自带的分区器是HashPartitioner原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走.自定义分分区需要继承Partitioner,复写getpariton()方法自定义分区类:注意:map的输出是<K,V>键值对其中int partitionIndex = dict.get(text.toString()),partitionIndex是获取K的值附:被计算的的文本 Dear Dea

hadoop MapReduce自定义分区Partition输出各运营商的手机号码

MapReduce和自定义Partition MobileDriver主类 package Partition; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; public class MobileDriver { public static void main(String[] args) { String[] paths = {"F:\\mobile.txt", "F

Hadoop自定义分区Partitioner

一:背景为了使得MapReduce计算后的结果显示更加人性化,Hadoop提供了分区的功能,可以使得MapReduce计算结果输出到不同的分区中,方便查看.Hadoop提供的Partitioner组件可以让Map对Key进行分区,从而可以根据不同key来分发到不同的reduce中去处理,我们可以自定义key的分发规则,如数据文件包含不同的省份,而输出的要求是每个省份对应一个文件. 二:技术实现自定义分区很简单,我们只需要继承抽象类Partitioner,实现自定义的getPartitione

Hadoop学习笔记—11.MapReduce中的排序和分组

一.写在之前的 1.1 回顾Map阶段四大步凑首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组. 1.2 实验场景数据文件在一些特定的数据文件中,不一定都是类似于WordCount单次统计这种规范的数据,比如下面这类数据,它虽然只有两列,但是却有一定的实践意义. 3 3 3 2 3 1 2 2 2 1 1 1 (1)如果按照第一列升序排列,当

猜你喜欢

类的关系:泛化.关联.依赖.实现泛化:可以用"is-a-kind-of"来理解,也可以叫做继承(两者会有一些区别但不是很大).指的是一个类的功能都来自于另外的类的功能.用直线和空 ...

Linux 局域网同步时间

选择一台能上外网的机器作为时间服务器(都不能上亦可以,任选一台即可,但是只能保证局域网内时间同步) 配置此时间服务器安装 ntp 在 /etc/ntp.conf 中配置 [plain] view p ...

勉励自己

python已经学习了1个月了,希望自己能坚持下去. 源码方面,下载器多进程多线程似乎不合理了,可以尝试用携程减少CPU的使用率,但网页掉包的问题目前没想到 Ftp 思路清晰,但代码量太大,目前解决了 ...

摄像机旋转约束问题及解决

去年2月份写过一个旋转约束的解决方法,不过是硬算的,今天无意中在论坛发现了一个解决方法 if (euler.x > 180) euler.x -= 360; if (euler.x < - ...

迪杰斯特拉算法介绍

迪杰斯特拉(Dijkstra)算法是典型最短路径算法,用于计算一个节点到其他节点的最短路径. 它的主要特点是以起始点为中心向外层层扩展(广度优先搜索思想),直到扩展到终点为止. 基本思想通过Dijk ...

阶段总结一:数据库篇

p,li { white-space: pre-wrap } 最近一直在用python的Flask框架开发应用.相比bottle框架,Flask丰富的扩展让代码写起来更加方便.在边踩坑边学习中得到了一 ...

数据存储——SharedPreferences存储

一.特点 1.存储单一数据,例如数值,字符串,布尔 2.存放的文件:/data/data/包名/shared_prefs/xxx.xml <map><string name=&quo ...

H3C防火墙sslvpn配置

第一步.配置PKI域sslvpn.<Sysname> system-view[Sysname] pki domain sslvpn 定义pki域名称sslvpn[Sysnam ...

最新版本_adt-bundle-windows-x86_64-20140702 无法建立avd

============问题描述============ 不是说:" __ADT Bundle包含了Eclipse.ADT插件和SDK Tools,是已经集成好的IDE,只需安装好Jdk即可 ...

linux终端下飞鸽传书(飞秋)协议的简单实现

记得这还是当时在凌阳上网络课程时的做得一个小项目,过了这么久怕忘得一干二净,今天拿出来晒晒记忆,温故而知新. 这里我就不说飞鸽的具体协议了,而是重点列出主要我设计的程序框架. 工程文件组织架构: Ma ...

ceph学习笔记之八 CRUSH

CRUSH(Controlled Replication Under Scalable Hashing) 它是一种基于伪随机控制数据分布.复制的算法. 数据分布式算法的要求: 数据分布和负载均衡首先 ...

MySql基本查询、连接查询、子查询、正则表达查询讲解

林炳文Evankaka原创作品.转载请注明出处http://blog.csdn.net/evankaka 查询数据指从数据库中获取所需要的数据.查询数据是数据库操作中最常用,也是最重要的操作.用户可以 ...

linux的运维管理UNIT1

UNIT1 虚拟机的控制:[[email protected] Desktop]$ rht-vmctl start desktop ##开启虚拟机desktop##Star ...

Oracle数据库——半期测验

一.使用system用户登录SQL*PLUS,使用命令将scott用户解锁,并将scott用户的密码修改为: t_你的学号后三位(例如:t_165).然后,以scott用户连接数据库. 1. 使用sy ...

Android--颜色

<?xml version="1.0" encoding="utf-8"?> <resources> <color name=&q ...

JAVA EE 连接MySql数据库

接上次JDBC 使用Derby数据库连接之后这次尝试使用MySql 连接=-= 我们得先下载Mysql的驱动包:mysql-connector-java-5.1.41-bin.jar 下载之后导入 ...

在不同手机之间IMEI串号转移，实现账号跨机共存

应用app账号很多都是绑定手机imei串号的,有时候我们需要在其他手机上登录账号,但一旦这账号在其他手机注册的话,那就无法登陆成功了,这时候如何解决呢? 这就是我们今天要教大家的方法,我们可以找手机参 ...

linux网络底层相关知识储备

1:系统是否识别网卡 2: 安装驱动加载对应模块使用lsmod modprobe 配合修改 /etc/modprobe.conf [[email protected] ~]# modpro ...

今日练习题整理

<script> var year =prompt("输入年龄"); var sex =prompt("输入性别"); if(7<=year) ...

React入门资源整理

另外,附上我搜集的一些比较实用的学习资料,建议先看这些撸起来,再看什么乱七八糟的awsome系列. React入门资源整理孔明前端团队React项目新手指南:http://www.07net01.c ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.024 s.