Hadoop分区与分组

下面以《Hadoop权威指南》中的一个例子来解释分区与分组的关系。

对于一般的键，只需要key值相同，则对应的value就会分配至同一个 reduce中；

对于复合键，形式为TextPair<key1,key2>（关于复合键，可参考另一篇关于TextPair的博文http://blog.csdn.net/until_v/article/details/40867973），通过控制 key1来进行分区，则具有相同的 key1的值会被划分至同一个分区中，但此时如果 key2不相同，则不同的key2会被划分至不同的分组。如

注：Partition代表分区,Group代表分组；

1900、1901为key1的值；35℃、34℃为key2的值

通过控制任务的分组（job.setGroupingComparatorClass(GroupComparator.class)，可以忽略key2的值，使相同的 key1的值划分至同一组，从而使key1相同的数据能够迭代在一个 reduce中。如：

时间： 2024-11-05 14:57:09

Hadoop分区与分组的相关文章

Hadoop Mapreduce分区、分组、二次排序

1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce2.Mapreduce中Partition的概念以及使用.(1)Partition的原理和作用得到map给的记录后,

Map/Reduce中分区和分组的问题

全篇结论 [分在同一组的<key,value>一定同属一个分区.在一个分区的<key,value>可重载"job.setGroupingComparatorClass(a.class);"中的a类的 compare方法重新定义分组规则,同一组的value做为reduce的输入.] 一.为什么写分区和分组在排序中的作用是不一样的,今天早上看书,又有点心得体会,记录一下. 二.什么是分区 1.还是举书上的例子,在8.2.4章节的二次排序过程中,用气温举例,所以这里

mapreduce原理【分区，分组】

分析这个原理,的原因是: 1.更好的理解MAPREDUCE的过程. 2.在二次排序时会用到这个原理,二次排序要重写分区方法,重写分组方法:如果原理没搞明白,就无法写二次排序的代码. Key 默认分区默认分组自定义分区自定义分组 Abc123 1.使用系统默认分区方式,是按KEY进行分区. 2.KEY相同,分划分到一个分区且只能划分到一个分区. 划分方式按KEY的HASHCODE进行计算. 3.假设设定为3个分区,则划分方式可能是 a) 分区1:Abc789,Cde123,Cde456 b)

Hadoop mapreduce自定义分组RawComparator

本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需要了解的可以看看我在博客园的评论,现在开始. 首先我们查看下Job这个类,发现有setGroupingComparatorClass()这个方法,具体源码如下: /** * Define the comparator that controls which keys are grouped toge

MapReduce处理二次排序(分区-排序-分组)

MapReduce二次排序原理在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReader的实现. 本例子中使用的时TextInputFormat,他提供的RecordReader会将文本的字节偏移量作为key,这一行的文本作为value. 这就是自定义Map的输入是<LongWritable,Text>的原因,然后调用自定义的Map的map方法,将一个个&l

Hadoop之——自定义分组比较器实现分组功能

转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46287985 不多说,直接上代码,大家都懂得 1.Mapper类的实现 /** * Mapper类的实现 * @author liuyazhuang * */ static class MyMapper extends Mapper<LongWritable, Text, NewK2, LongWritable>{ protected void map(LongWritable

hadoop的自定义分组实现（Partition机制）

hadoop开发中我们会遇到类似这样的问题,比如如何将不同省份的手机号分别输出到不同的文件中,本片文章将对hadoop内置的Partition类进行重写以解决这个问题. MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R).用户在中间key上使用分区函数来对数据进行分区,之后在输入到后续任务执行进程.Hadoop中自带了一个默认的分区类HashPartitioner,它继承了Partitioner类,提供了一个getPartition的方法,它的定义如下所

Hadoop之-->自定义分组 RawComparator

data: 3 33 23 22 22 11 1 --------------------- 需求: 1 12 23 3 当第一列相同时候要第二列的最小值 package group; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org

【Hadoop】Hadoop MR 自定义分组 Partition机制

1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable; public class FlowBean

猜你喜欢

lua table1

print "helloworld" --1 table 做配置文件 --2 table 做数据集 mytable ={} mytable2={ 1,2,3,4,5,"o ...

MVC与javaee

mvc是一种源于桌面程序的架构模式,它的基本思想是把程序界面和业务逻辑分开,这样便于软件的后期维护,同时也方便开发时期分工及管理,mvc有很多有点所以现在已经被广泛的应用与web开发中.9149491 ...

替换Avada主题的Google字体

刚玩WP的时候图省事,在themeforest买了排行第一的主题Avada,虽然强大,但对我目前的Blog应用而言实在太'重'了.而且老外的主题很多方面不接地气,比如谷歌字体.本文指导各位如何在Ava ...

python面向对象析构方法-----> __del__方法

1.什么时候用法析构方法. 在对象资源被释放的时候触发. 2.使用场景. 帮助清理资源,比如python解释器清理不掉的资源. 例子: class Foo: def __init__(self,x): ...

利用WordPress REST API 开发微信小程序从入门到放弃

自从我发布并开源WordPress版微信小程序以来,很多WordPress网站的站长问有关程序开发的问题,其实在文章:<用微信小程序连接WordPress网站>讲述过一些基本的要点,不过仍 ...

必须清零

从去年到今年以来,折腾了不少事情. 辛苦努力的工作,并不等于就有了收获,面对一场消灭中产的股灾,两年的努力一样全部消灭.白干了. 工作方面,原定的方向是合作,但实践下来,发现了在中国,技术型合作最大的 ...

算法总结之用一个栈实现另一个栈的排序

用一个栈实现另一个栈的排序一个栈中元素的类型为整型,现在想将该栈从顶到底按从大到小的顺序排序.只允许申请一个栈.除此之外可以申请新的变量,但不能申请额外数据结构思路: 将要排序的栈记为 stack ...

对象属性方法

函数function对象的caller属性返回一个对函数的引用,该函数调用了当前函数. functionName.caller functionName 对象是所执行函数的名称. function ...

微擎学习笔记

1.数据库操作文件名processor.php <?php defined('IN_IA') or exit('Access Denied'); class RegisterModulePro ...

一款基于jquery的手风琴显示详情

今天要各网友分享一款基于jquery的手风琴显示详情实例.当单击顶部箭头的时候,该项以手风琴的形式展示显示详情.效果图如下: 在线预览源码下载实现的代码. html代码: <div al ...

测试工具学习笔记 - JUnit4

1. StartUp 引入JUnit依赖, 用@Test标注需要被测试的方法,使用Assert进行测试结果是否通过 <dependency> <groupId>junit< ...

Kafka的coordinator

(基于0.10版本) Group Management Protocol Kafka的coordiantor要做的事情就是group management,就是要对一个团队(或者叫组)的成员进行管理. ...

在软件开发的早期阶段为什么要进行可行性研究?应该从哪些方面研究目标系统的可行性?

答:可行性研究的目的就是用最小的代价在尽可能短的时间内确定问题是否能够解决. 应该从以下三方面研究目标系统的可行性 1.技术可行性 2.经济可行性 3.操作可行性

大道至简读书笔记（2）

这本书的作者一看就知道是一位实际参与软件工程经验丰富的人,他在几十年的工作之后写下了这本书,用非常通俗的语言告诉我们那些“雷区”(想来想去不知道用什么词形容,姑且暂用). 可我想,事实上,我们现阶段作 ...

android国内镜像及SDK更新解决方案

1.不知道什么原因,android官方网站:http://developer.android.com/sdk/index.html 已经被屏蔽了,无法访问并下载adt bundle了.需要下载的新手可 ...

聊一聊HTML <!DOCTYPE> 标签

一般一个基本html页面的结构,如下代码所示: <html> <head> <title>我是基本的页面结构</title> </head> ...

448. Find All Numbers Disappeared in an Array Add to List

题目描述题目分析有个[1,n]的条件要充分利用起来. 题目代码 public class Solution { public List<Integer> findDisappeared ...

自定义搜索引擎

Google自定义搜索引擎本文主要介绍如何通过Google的API来定义自己的搜索引擎,并将Google搜索框嵌入到自己的web页面.另外,分析了自定义搜索引擎请求数据的url,模拟请求并获取搜索的 ...

jquery筛选数组之grep、each、inArray、map的用法及遍历son对象（转）

grep ［传入的参数为返回bool类型的函数］ <script type='text/javascript' src="/jquery.js"></script ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.023 s.