9.2.1 hadoop mapreduce任务输出的默认排序

任务的默认排序

MapTask和ReduceTask都会默认对数据按照key进行排序，不管逻辑上是否需要。默认是按照字典顺序排序，且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序，不能保证所有输出全局有序。

MapTask，当环形缓冲区使用率到达一定阈值后进行一次快速排序，将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写到磁盘上，否则存储在内存中。如果内存中文件大小或者数据超过一定阈值，则进行一次合并后将数据溢写到磁盘上。如果磁盘上文件数目达到一定阈值，则进行一次归并排序以生成一个更大的文件；当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取：

https://www.cnblogs.com/bclshuai/p/11380657.html

原文地址：https://www.cnblogs.com/bclshuai/p/12315342.html

时间： 2024-11-08 12:04:14

9.2.1 hadoop mapreduce任务输出的默认排序的相关文章

Hadoop学习之自定义二次排序

一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求.对于二次排序的实现,本文将通过一个实际的MapReduce二次排序例子讲述二次排序的实现和其MapReduce的整个处理流程,并且通过结果和map.reduce端的日志来验证所描述的处理流程的正确性. 二.需求描述 1.输入数据: sort1 1 sort2 3 sort2

Hadoop 默认排序

Hadoop 默认排序 1 3 1 2 1 1 3 3 3 2 2 2 2 1 3 1 排序后:左右前面一列排序后面一列不排序要想第二列也排序请看 Hadoop二次排序 1 3 1 2 1 1 2 2 2 1 3 3 3 2 3 1 代码为: package com.hadoop.test.defaultsort; import java.io.IOException; import o

hadoop MapReduce自定义分区Partition输出各运营商的手机号码

MapReduce和自定义Partition MobileDriver主类 package Partition; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; public class MobileDriver { public static void main(String[] args) { String[] paths = {"F:\\mobile.txt", "F

hadoop多文件输出

在旧的API中使用多文件输出,只需要自定义类继承MultipleTextOutputFormat类重写它下面的generateFileNameForKeyValue 方法即可, 直接上例子. 输入文件内容: 目的是按照字母开头的文件输出,并统计单词计数,输出结果为: 代码如下: package defined; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; impor

【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现. MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1. Hadoop示例程序WordCount详解及实例 2. hadoop 学习笔

Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）

不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce.ParseTVDataCompressAndCounter; import java.net.URI; import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Co

Hadoop MapReduce编程 API入门系列之处理Excel通话记录（二十）

不多说,直接上代码. 与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示.我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件夹. 2016-12-12 20:04:10,203 INFO [zhouls.bigdata.myMapReduce.ExcelContactCount.ExcelContactCount$ExcelMapper] - Map processing finished2016-12-12 20:04:10,203 I

Hadoop mapreduce自定义分组RawComparator

本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需要了解的可以看看我在博客园的评论,现在开始. 首先我们查看下Job这个类,发现有setGroupingComparatorClass()这个方法,具体源码如下: /** * Define the comparator that controls which keys are grouped toge

使用Python实现Hadoop MapReduce程序

转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的ubuntu上的运行过程.文字基本采用博文使用Python实现Hadoop MapReduce程序, 打字很浪费时间滴. 在这个实例中,我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapReduce程序. 尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C+

猜你喜欢

【Ubuntu】您没有查看“sf_VirtualDisk”的内容所需的权限。

原文链接:http://www.crifan.com/can_not_access_share_folder_in_ubuntu_virtualbox/ [问题] 之前已经搞定可以自动共享文件夹了: ...

自动计算高度的方法 iOS, height为0, 可以自动计算weith,

height为0, 可以自动计算weith; weith为0, 可以自动计算height, 两者不可以同时为0 NSDictionary *dic = @{NSFontAttributeName: [ ...

结对编程任务总结

一.结对编程的优点: 1.结对编程能提供更好的设计质量和代码质量,两人合作能有更强的解决问题的能力. 2.结对能更有效地交流,相互学习和传递经验,能更好地处理人员流动.因为一个人的知识已经被其他人共享 ...

AJAX教程

AJAX教程(异步的JavaScript和XML)--局部刷新创建动态网页的技术异步:做一件事中间继续做另一件事情同步:做完一件事情之后才能做其他的事如果需要更新内容,必须刷新整个页面(AJA ...

协方差

在概率论和统计学中,协方差用于衡量两个变量的总体误差.而方差是协方差的一种特殊情况,即当两个变量是相同的情况. 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: ...

spice协议----播放和录音通道

1 播放通道定义 SPICE协议支持服务器发送音频流数据在客户端播放.音频流服务器使用SPICE_MSG_PLAYBACK_DATA消息发送客户端,音频数据的内容有播放模式控制(服务器通过SPICE ...

cocos2d-x 2.2.3 创建项目的方法

直接复制粘贴到txt文本,然后修改后缀为.bat,然后将bat文件放到tools\project-creator的目录下即可. :project_input @echo 请输入项目名称,按回车,例:H ...

将数组按不同种类分为三个部分（快排思想）

不废话,直接上代码: 1 /* 2 * 按照一位数,两位数,和三位数将数组中的元素分成三类, 3 * 并按照1位2位3位的顺序排列 4 */ 5 6 # include <stdio.h> ...

adblockTester通过js检测用户浏览器是否安装了AdBlock

adblockTester 简介首先有必要介绍一下AdBlock,它是一款知名网页广告屏蔽插件,在各大主流浏览器上均有AdBlock插件. AdBlock为用户带来了一片蓝天,却苦了站长,尤其是苦逼 ...

AOJ 718.计算GPA

Time Limit: 1000 ms Case Time Limit: 1000 ms Memory Limit: 128 MBTotal Submission: 72 Submissi ...

前端笔试题集合（四）

欢迎大家不吝赐教,贡献答案. No.31 请用实现一个最简单的输入框提示功能要求:1.输入框内默认显示提示文案,当用户点击输入框后,光标定位到输入框最前,并继续显示提示文案,当用户输入后替换默认提示文 ...

AngularJS中的transclusion案例

AngularJS中的transclusion类似于包含关系. 通常,这样定义一个directive: <mydirective someprop=""></my ...

解决Twitter Bootstrap Tab URL链接问题

例如这样的一个Tabs 代码: <ul class="nav nav-tabs" id="myTab"> <li class="ac ...

深入理解JAVA虚拟机垃圾收集器和内存分配策略

引用计数算法很多教科书判断对象是否存活的算法是这样的:给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加1:当引用失效时,计数器值就减1:任何时刻计数器都为0的对象就是不可能再被使用的 ...

深度卷积对抗生成网络(DCGAN)

本文是参考文献[1]的论文笔记. 卷积神经网络在有监督学习中的各项任务上都有很好的表现,但在无监督学习领域,却比较少.本文介绍的算法将有监督学习中的CNN和无监督学习中的GAN结合到了一起. 在非CN ...

maven学习教程（一）——环境搭建

Apache maven是一个比较流行的常用的项目管理工具 Maven的主要作用 |-- 1. 分模块管理项目 |-- 2. 分仓库管理依赖 maven使用中央仓库和本地仓库来管理项目依赖 |-- m ...

iptables实现7层过滤

软件包 l7-protocols-2009-05-28.tar.gz linux-2.6.28.10.tar.gz netfilter-layer7-v2.22.tar.gz iptables-1.4 ...

最稳定的国内免备案服务器,支持301跳转,可做A记录,解决域名被墙。

国内免备案服务器哪些地方呢?(福州机房|台州机房) Q:2885167906国内免备案服务器,支持301跳转,完美解决域名被墙的问题,域名不备案照样开80端口挂站.死扛大攻击流量,提供60G-300G ...

转：linux下Xampp安装与配置

--转载时请保留下面,以供大家加我MSN,增强交流,共同学习.--姜庭华 msn: [email protected]--博客:http://blog.csdn.net/jaimejth 软件下载在 ...

20170915-如何在jmeter'工具中添加压力机

jmeter中如何添加压力机1.谁的电脑要做压力机们就要把那台电脑的jmeter-server.bat(jmeter的bin文件目录下)启动2.两台电脑要能ping通3.在配置文件中加入这个ip:修改 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.