MapReduce框架排序和分组

前言：

Mapreduce框架就是map->reduce,其中Map中的<key,value>是偏移量和行值，在其之前会使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat，他提供的RecordReder会将文本的一行的行号作为key，这一行的文本作为value。这就是自定义Map的输入是<LongWritable,
Text>的原因。

之后调用Map类进行split，将其写入环形内存中，待其达到阀值时，对其的80%进行排序排序和分组，这都是在Map和Reduce之间完成，那么下面我们来看看这些函数类

一、分区

参考上一篇博客：http://blog.csdn.net/gamer_gyt/article/details/47339755

二、排序

按照Key进行排序，其实在每一个Map函数里就已经默认调用了job.setSortComparatorClass(Comparator.class)类进行了排序，但此时只不过对每一个Map函数接受的value（行值）的排序，这里所说的是map和reduce之间的排序，实现的是对所有的key进行排序

三、分组

job.setGroupingComparatorClass(GroupComparator.class);

如果用户想自定义排序方式，首先需要实现两个Comparator并将其按照上面的格式进行配置。每一个Comparator需要继承WritableComparator基类。如下所示：

public static class GroupComparator extends WritableComparator {

protected GroupComparator() {

super(IntPair.class, true);

}

@Override

public int compare(WritableComparable w1, WritableComparable w2) {

IntPair ip1 = (IntPair) w1;

IntPair ip2 = (IntPair) w2;

return IntPair.compare(ip1.getFirst(), ip2.getFirst());

}

}

这一点在二次排序中深有体现：可以参考http://blog.csdn.net/gamer_gyt/article/details/47315405

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2025-01-05 04:27:04

MapReduce框架排序和分组的相关文章

Hadoop学习之路（十九）MapReduce框架排序

流量统计项目案例样本示例需求 1. 统计每一个用户(手机号)所耗费的总上行流量.总下行流量,总流量 2. 得出上题结果的基础之上再加一个需求:将统计结果按照总流量倒序排序 3. 将流量汇总统计结果按照手机归属地不同省份输出到不同文件中第一题 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.h

Hadoop学习笔记—11.MapReduce中的排序和分组

一.写在之前的 1.1 回顾Map阶段四大步凑首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组. 1.2 实验场景数据文件在一些特定的数据文件中,不一定都是类似于WordCount单次统计这种规范的数据,比如下面这类数据,它虽然只有两列,但是却有一定的实践意义. 3 3 3 2 3 1 2 2 2 1 1 1 (1)如果按照第一列升序排列,当

大数据系列之分布式计算批处理引擎MapReduce实践-排序

清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. 博文发表后很多同学私下反映对于MapReduce的处理原理没有了解到.在这篇博文中楼主与大家交流下MapReduce的数据处理原理及MR中各角色的职责. 文末还有示例代码讲解.. 1.MapReduce中的数据流动最简单的过程: map - reduce 定制了partitioner以将map的结

hadoop 学习笔记：mapreduce框架详解

hadoop 学习笔记:mapreduce框架详解开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习 hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不

【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解

开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不可分,所以当我写分布式文件系统时候,总是感觉自己的理解肤浅

Hadoop学习笔记：MapReduce框架详解

原文出处: 夏天的森林开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不可分,所以当我写分布式文件系统时候

mapreduce框架详解

转自:http://www.cnblogs.com/sharpxiajun/p/3151395.html 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoo

传统的MapReduce框架慢在那里

为什么之前的MapReduce系统比较慢常理上有几个理由使得MapReduce框架慢于MPP数据库: 容错所引入的昂贵数据实体化(data materialization)开销. 孱弱的数据布局(data layout),比如缺少索引. 执行策略的开销[1 2]. 而我们对于Hive的实验也进一步证明了上述的理由,但是通过对Hive"工程上"的改进,如改变存储引擎(内存存储引擎).改善执行架构(partial DAG execution)能够缩小此种差距.同时我们也发现一些MapRe

hadoop 学习笔记：mapreduce框架详解(转 http://www.cnblogs.com/sharpxiajun/p/3151395.html)

开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不可分,所以当我写分布式文件系统时候,总是感觉自己的理解肤浅

猜你喜欢

JavaScript中getBoundingClientRect()方法详解

getBoundingClientRect() 这个方法返回一个矩形对象,包含四个属性:left.top.right和bottom.分别表示元素各边与页面上边和左边的距离. var box=docum ...

使用Jmeter进行http接口做功能、性能测试

在测试移动APP时,会有很多接口需要做测试,我在这里介绍一下对HTTP接口做功能.性能的测试.首先我们会从开发人员拿到接口数据. 一.测试需求描述 1. 本次测试的接口为http服务端接口 2 ...

JS复习第五章

第五章引用类型一.Object类型创建object实例的方式有两种. 第一种是使用new操作符后跟object构造函数,如下所示: ver person = new Object( ) ; pe ...

使用Microsoft Office Word编写博客

感受一下Word强大的编辑能力吧! 试一下图片插入再来一段代码看看 using System; using System.Windows.Forms; using Tamir.SharpSsh.js ...

Python学习系列（六）(模块)

一,模块的基本介绍 1,import引入其他标准模块标准库:Python标准安装包里的模块. 引入模块的几种方式: i)引入模块:import moduleName ii)引入模块下的函数:fr ...

jstl引入报错

jstl1.0的引入方式为: <taglib uri="http://java.sun.com/jstl/core" prefix="c" /> j ...

POJ 2104：K-th Number（整体二分）

http://poj.org/problem?id=2104 题意:给出n个数和m个询问求区间第K小. 思路:以前用主席树做过,这次学整体二分来做.整体二分在yr大佬的指点下,终于大概懂了点了.对于二 ...

标准I/O

在程序运行时,会默认为我们打开三个流:标准输入流.标准输出流.标准出错流. 标准输入流一般对应我们的键盘标准输出流一般对应显示器标准出错流一般也对应显示器 1.标准输入流在标准I/O中,java ...

XAMPP Apache + MySQL + PHP + Perl

XAMPP Apache + MySQL + PHP + Perl 什么是XAMPP? XAMPP是最流行的PHP开发环境 XAMPP是完全免费且易于安装的Apache发行版,其中包含MySQL.PH ...

异常处理try-catch-finally笔记

当程序发生异常时,我们期望:返回到一种安全状态,并能够让用户执行一些其他的命令:或者允许用户保存所有操作的结果,并以适当的方式终止程序. 异常处理机制:程序的执行过程中如果出现异常,会自动生成一个异 ...

打造自己的 ID 体系（博客已经迁移至该账号。。）

从高三毕业到现在之前博客园的账号年龄已满一年,在自己对整个软件工程行业的认知中渐渐找到了自我的定位. (之前的博客园账号是:http://www.cnblogs.com/corvoh.丝丝不舍) 其中 ...

前端知识点-jsonp csrf

jsonp详解 ajax的核心是通过XmlHttpRequest获取非本页内容 jsonp的核心则是动态添加<script>标签来调用服务器提供的js脚本. 利用script标签绕过同源策 ...

近期专案PM相关收获

1, 厚黑学讲的有道理, 坏人? 为什么占便宜., 好人为什么当不了坏人是有一定道理的. -- 作为PM,能力大小居然都能胜任,从这一点上对组员不负责,如下种种都算有则改之无则加勉. -- 技术能力问 ...

微信公众平台开发笔记

从寒假自己就開始拿微信公众平台开发当练手,到如今断断续续已经挺久了,仅仅只是忙于其它事写代码的时间还是非常少,但总体的框架已经搭起来了.公众微信号就不用给了,我不求粉,仅仅是来总结一下技术问题,再拖非 ...

用户数据分析工具 GrowingIO

1.通过cocoapods 导入添加 pod 'GrowingIO' 到 Podfile 中. 2.登录创建应用,获取id. 3.在 AppDelegate 中引入#import "Gro ...

httpclient: Content-Length header already present问题

现象:用httpclient发送http请求时,客户端返回: org.apache.http.client.ClientProtocolException at org.apache.http.imp ...

RHCE考试中，samba与selinux的问题

RHCE模拟考试之配置Samba服务,共享出/groupdir 目录,要求只有192.168.0.0/24和192.168.1.0/24和127.0.0.1可以访问,共享出的名字是[common],用 ...

GBDT（MART）迭代决策树入门教程 | 简介

原文:http://blog.csdn.net/w28971023/article/details/8240756#0-tsina-1-51337-397232819ff9a47a7b7e80a406 ...

从头认识Spring-2.1 自己主动装配（2）-byType（2）

为了解决配置文件中面出现多个同类型的Bean而byType无法匹配的问题.引入了primary和autowire-candidate属性. 1.primary 因为全部bean默认的primary都是 ...

转：测试云服务器的工具相关

from: http://cloud.51cto.com/art/201611/520693.htm 首份云计算产品评测曝光,腾讯云.阿里云到底谁更高一筹? 阿里云作为名副其实的国内业界第一,名声非常 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.