ChainMapper/ChainReducer 的实现原理

ChainMapper/ChainReducer 主要为了解决线性链式Mapper 而提出的。也就是说，在Map 或者Reduce 阶段存在多个Mapper，这些Mapper 像Linux 管道一样，前一个Mapper的输出结果直接重定向到下一个Mapper 的输入，形成一个流水线，形式类似于[MAP+REDUCE MAP*]。图1展示了一个典型的ChainMapper/ChainReducer 的应用场景：在Map 阶段，数据依次经过Mapper1 和Mapper2 处理；在Reduce 阶段，数据经过shuffle 和sort 后；交由对应的Reducer 处理，但Reducer 处理之后并没有直接写到HDFS 上，而是交给另外一个Mapper 处理，它产生的结果写到最终的HDFS 输出目录中。

图1 ChainMapper/ChainReducer 应用实例

需要注意的是，对于任意一个MapReduce 作业，Map 和Reduce 阶段可以有无限个Mapper，但Reducer 只能有一个。也就是说，图2 所示的计算过程不能使用 ChainMapper/ChainReducer 完成，而需要分解成两个MapReduce 作业。

图2 一个ChainMapper/ChainReducer 不适用的场景

ChainMapper/ChainReducer 的实现原理

时间： 2024-07-28 21:13:01

ChainMapper/ChainReducer 的实现原理的相关文章

MapReduce ChainMapper/ChainReducer

The ChainMapper class allows to use multiple Mapper classes within a single Map task. The ChainReducer class allows to chain multiple Mapper classes after a Reducer within the Reducer task. 没有Chain之前,只能通用多个Job迭代来实现数据递进处理,这样做的缺点是: a. 每次迭代,如果所有 Job 对象重

链式ChainMapper/ChainReducer

类似于Linux管道重定向机制,前一个Map的输出直接作为下一个Map的输入,形成一个流水线.设想这样一个场景:在Map阶段,数据经过mapper1和mapper2处理:在Reduce阶段,数据经过sort和shuffle后,交给对应的reducer处理.reducer处理后并没有直接写入到Hdfs, 而是交给了另一个mapper3处理,它产生的结果最终写到hdfs的输出目录中. 注意:对任意MR作业,Map和Reduce阶段可以有无限个Mapper,但reduer只能有一个. package

MapReduce/Hbase进阶提升(原理剖析、实战演练)

什么是MapReduce? MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性.他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上. 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一

基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma

Hadoop的前景随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员. Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万. 一般需要大数据处理的公司基本上都是大公司,所以学

Hadoop大数据零基础高端实战培训视频

<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦课程分类:大数据适合人群:初级课时数量: 300课时用到技术:部署Hadoop集群涉及项目:京东商城.百度.阿里巴巴咨询QQ:779591710 下载地址: 链接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542 密码:8tkb 第一阶段:Hadoop基础篇(50课时) - 千里之行,始于足下(赠送课

Hadoop2.0、YARN技术大数据视频教程

基于Hadoop2.0.YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战)课程分类:Hadoop适合人群:高级课时数量:81课时用到技术:基于协同过滤的推荐系统.基于HBase的爬虫调度库涉及项目:银行人民币查询系统.HBase编程实践及案例分析咨询qq:1840215592 课程内容简介本课程基于<基于Greenplum Hadoop分布式平台的大数据解决方案>Hadoop部分的基础课程来进行扩展延伸,主要内容分为以下四部分:一.对Had

hadoop随手笔记

1.Hadoop Streaming 是为了方便不太熟悉java用户编写MR程序的工具.用户可以将任何可执行文件(C++)或者脚本(python,ruby)作为Mapper/Reducer, 提高了效率.Hadoop Steaming 要求用户编写的Mapper/Reducer从[标准输入]中读取数据,并将结果写到[标准输出]中.这个有点类似于linux的管道机制. 2.ChainMapper/ChainReducer 同样类似于linux管道重定向机制,前一个map的输出直接作为下一个map的

Hadoop的ChainMapper和ChainReducer使用案例（链式处理）

不多说,直接上干货! Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper的输入,形成一个流水线,而这一点与Lucene和Solr中的Filter机制是非常类似的,Hadoop项

Hadoop的ChainMapper和ChainReducer实战

Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper的输入,形成一个流水线,而这一点与Lucene和Solr中的Filter机制是非常类似的,Hadoop项目源自Lucene,自然也借鉴了

猜你喜欢

投资自己的梦想—孙正义的投资哲学

摘要: 著名企业家,毕业于美国加州大学伯克利分校,现任软件银行集团董事长兼总裁. 他是马云最信任的合作伙伴,阿里巴巴上市最大赢家他是全球互联网隐形大帝,比肩巴菲特的投资之王他是人生架构师,19岁写 ...

Objective-C 继承和多态

学习Java我们知道类有三大特征,封装,继承,多态.而在Objective-C中也有继承的概念,今天就来看看Objective-C中的继承和多态. 首先,我们来看看示例代码: //Animal.h # ...

【程序猿必备】鼠标右键点击没有新建命令有什么方法解决

第一步:在电脑桌面点击开始,打开程序/附件/记事本. 第二步:在记事本里粘贴 Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\Direc ...

SSMS2008插件开发(1)--介绍

原文:SSMS2008插件开发(1)--介绍 SSMS2008就是Microsoft Sql Server Management Studio 2008的简称.许多人叫做SQL2008或SQL SER ...

windows下PHP批量生成打包android程序APK-渠道txt植入apk文件

服务器安装php环境下载 android-sdk-windows 下载JDK 1.打开zip支持 c:/windows/php.ini ,打开 exec 2.apk 支持mime添加 .apk a ...

为InfiniBand而哭泣

自古就不乏还没有开始就结束的那种精彩,我称之为殉道者.InfiniBand就是其中之一,虽然它有陨落之势,我依然要为它鼓掌.如果说以太网旨在将主机联系在一起,那么InfiniBand的初衷就是将其肢解 ...

设计模式（十三）策略模式（Strategy）-行为型

前两天去张家界玩了,一直荒废了学习,持续两天都没在状态,今天好好恢复下.发篇博文吧! 策略模式(Strategy) 策略模式就是定义了一系列的算法,并将每一个算法封装起来,而且使他们还可以互相替换.策 ...

学习vi和vim编辑器（15）：vim对vi的主要改进

vim对vi做了大量改进,本章将讨论在vim中添加的主要功能:包括内置帮助功能.启动与初始化选项.新的移动命令.扩展的正则表达式.扩展的撤销.自定义可执行文件等. 内置帮助功能: vim的说明文档超过 ...

[转] 从 dll 程序集中动态加载窗体

无涯原文从 dll 程序集中动态加载窗体 [原创] 昨天晚上花了一晚上时间写了一个从程序集中动态加载窗体的程序．将任何包含窗体的代码编译成 dll 文件,再把 dll 文件拷贝到本程序的目录下,本 ...

如何使用jQuery禁用鼠标右键

如何使用jQuery禁用鼠标右键:很多网站都有这样的效果,那就是浏览者无法使用鼠标右键,这样也就禁止了很多功能,比如复制功能,尽管这个对于了解网页知识的人并没有太大的作用,不过还是在这里介绍一下此功能 ...

vs2010 SetUp 安装软件时，界面出现乱码的问题

AppLocale在简体中文系统里使用之后, 会令某些简体中文的MSI形式的安装程序显示乱码(比如: OFFICE2000简体中文版安装程序). 解决方法: 方法一: 卸载AppLocale即可解决 ...

关于while 中ignore 的用法

[[email protected]~]#echo "1 2 3 4 5" |while read ignore args;do echo $args ;done 2 3 4 5 ...

数字信号处理--FFT与蝶形算法

在数字信号处理中常常需要用到离散傅立叶变换(DFT),以获取信号的频域特征.尽管传统的DFT算法能够获取信号频域特征,但是算法计算量大,耗时长,不利于计算机实时对信号进行处理.因此至DFT被发现以来, ...

Linux 上的TC 流量控制几个例子

不少中小企业服务器接入带宽往往只有10Mbps 通常服务器也运行了其它服务,比如DNS服务,当网站访问量较大并且有多人同时下载时,带宽很容易耗尽,导致服务器延迟增加或丢包.如何对80端口进行速度限制, ...

[01] 异常的概念和处理

1.异常和错误 Java作为面向对象的语言,自然把系统发生的不正确的事件也封装成了Java对象.比如一个不存在的对象,我们却试图调用它的方法,自然是行不通的,这个不正确的事件,也就被封装成为了我们常见 ...

Apache为本地主机配置多个网站根目录详解

Author:KillerLegend Date:2014.5.27 From:http://blog.csdn.net/killerlegend/article/details/27195445 - ...

JQuery中stop方法的使用

在前台页面开发中有时候我们会需要一些比较酷的效果,这个时候使用JQuery中的动画来实现便显得非常的简单. 最近在工作中碰到了一个页面元素移动的效果,这是个简单的页面效果也非常容易实现. 在使用中用到 ...

微信开发--图片异步上传。

一.需求微信网页中实现上传头像,用户信息,用户宣传照的功能. 二.问题微信网页上传普通浏览器的上传不一样,微信内置浏览器禁止了普通的input上传功能,并且此标签在有些移动终端显示不佳. 三.解决 ...

line-height的妙用

转载自:http://www.w3cplus.com/css/fun-line-height.html CSS中的line-hight属性是用来控制文本行之间的空隙的.它一般情况下没有单位的设定(如: ...

jsonp跨域访问服务

前段时间在做产品开发的时候,需要与公司网站那边进行交互,我们所开发的产品上线后是放在一个域名下,公司网站那块是在另一个域名下,这样在页面中调用网站那边的接口时就存在跨域的问题,当时为了不修改网站那边 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.