hadoop1.x MapReduce工作原理

MapReduce 如何解决负载均衡和数据倾斜：

阶段主要出在Map作业结束后，shuffer（洗牌）过程中，如何将map处理后的结果分成多少份，交由Reduce作业，使得每部分reduce作业尽可能均衡处理数据计算。

系统默认将partitions 按照Hash模运算分割（存储对象的hash值与reduce的个数取模），这样很容易出现数据倾斜，导致其中一个reduce作业分得大量数据计算，另一个ruduce作业基本上没有任何数据处理。如何，解决的这种事情，就需要靠程序控制partitions的值

Sort：默认排序是按照字典排序的（按ASCII）

Shuffer阶段比较的操作要执行两次，一次是map task之后的sort另一次是在从本次磁盘将partition数据拷贝到指定reduce 之前的合并，将符合统一范围的key的数据归并

面试：

1.partition：将map输出的数据，按照某种规则将数据划分，分给哪一个reduce，默认使用hash模运算执行

2.spill：

过程：map的内存缓存区数据填满时，启动一个单独的线程，将数据按照一定比例写入本地磁盘。

Sort：将数据按照大小排序（可自定义）默认字典排序

Combiner：（可有可无）将相同的K_V中的value加起来，减少溢写磁盘的数据

Shuffer的后半过程：

将map处理后放入map节点的本地磁盘的数据拷贝到rudece节点的内存中去，数据量少的话，直接交由reduce处理。数据量大的时候，同样需要溢写到磁盘中，按照K值相同的方法进行merge，然后在交由指定的reduce执行

修改默认hdfs的block大小：

这个需要修改hdfs-site.conf配置文件，增加全局参数dfs.block.size。

如下：

修改后参数，

把配置同步到其它节点，并重启hdfs。

时间： 2024-10-13 11:58:04

hadoop1.x MapReduce工作原理的相关文章

MapReduce工作原理讲解

有时候我们在用,但是却不知道为什么.就像苹果砸到我们头上,这或许已经是很自然的事情了,但是牛顿却发现了地球的万有引力.ok了,希望通过了解MapReduce,我们能够写出更好的MapReduce例子.第一部分:MapReduce工作原理<ignore_js_op> <ignore_js_op> MapReduce 角色•Client :作业提交发起者.•JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业.•TaskTracker:保持JobTr

Hadoop MapReduce工作原理

在学习Hadoop,慢慢的从使用到原理,逐层的深入吧第一部分:MapReduce工作原理 MapReduce 角色 ?Client :作业提交发起者. ?JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业. ?TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务. 提交作业 ?在作业提交之前,需要对作业进行配置 ?程序代码,主要是自己书写的MapReduce程序. ?输入输出路径 ?其他配置,如输出压缩等. ?

MapReduce工作原理图文详解 (炼数成金)

MapReduce工作原理图文详解 1.Map-Reduce 工作机制剖析图: 1.首先,第一步,我们先编写好我们的map-reduce程序,然后在一个client 节点里面进行提交.(一般来说可以在Hadoop集群里里面的任意一个节点进行,只要该节点装了Hadoop并且连入了Hadoop集群) 2.job client 在收到这个请求以后呢,会找到JobTracker并且请求一个作业ID(Job ID).(根据我们的核心配置文件,可以很轻易的找到JobTracker) 3.通过HDFS 系统把

<转>MapReduce工作原理图文详解

转自 http://weixiaolu.iteye.com/blog/1474172前言: 前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了.学了很多东西,收获颇丰.可是开学后,大家都忙各自的事情,云计算方面的动静都不太大.呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去.这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉.汤帅,亮仔,谢总•••搞起来啊! 呵呵,下面我们进入正题,这篇文章主要

MapReduce工作原理图文详解

这篇文章主要分析以下两点内容:目录:1.MapReduce作业运行流程2.Map.Reduce任务中Shuffle和排序的过程正文: 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析: 1.在客户端启动一个作业. 2.向JobTracker请求一个Job ID. 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件.配置文件和客户端计算所得的输入划分信息.这些文件都存放在JobTracker专门为该作业创建的文

Hadoop2.6（新版本）----MapReduce工作原理

最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce的工作原理下面我画了一张图,便于理解MapReduce得整个工作原理下面对上面出现的一些名词进行介绍 ResourceManager:是YARN资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配.它接收来自NM(NodeManager)的汇报,建立AM,并将资源派送给AM(Applic

以MapReduce编程五步走为基础，说MapReduce工作原理

在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map--分,一部分是Reduce--合 MapReduce全过程的数据都是以键值对的形式存在的如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 首先,我们假设我们有一个文件,文件中存了以下内容 hive spark hive hbas

Hadoop之MapReduce工作原理

Hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框架MapReduce.其中,分布式文件系统HDFS主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统上,对于存储在分布式文件系统的数据进行分布式计算. 1 MapReduce设计目标 HadoopMapReduce诞生于搜索领域,主要解决搜索引擎面临的海量数据处理扩展性差的问题.它的实现很大程度上借鉴了Google MapReduce的设计思想,包括简化编程接口.提高系统容错性等.总结HadoopMap

【生活现场】从打牌到map-reduce工作原理解析（转）

原文:http://www.sohu.com/a/287135829_818692 小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了. 对小史面试情况感兴趣的同学可以观看面试现场系列. 找到工作后的一小段时间是清闲的,小史把新租房收拾利索后,就开始找同学小赵,小李和小王来聚会了. 吃过午饭后,下午没事,四个人一起商量来打升级.打升级要两副扑克牌,小史就去找吕老师借牌去了. [多几张牌] 吕老师给小史拿出一把牌. [map-reduce] (注

猜你喜欢

C 数组使用时注意点

数组注意点: 数组为静态时,初始化长度必为常量表达式数组长度由最后一个元素决定其长度,可以指定特定元素,如: int arr[] = {0, 1, [5]=5, 6}; 没有提供初始值的元素赋值为0 ...

第四讲课后题

本讲主要学习了静态类的使用方法: 1.使用类的静态字段和构造函数,我们可以跟踪某个类所创建对象的个数.请写一个类,在任何时候都可以向它查询"你已经创建了多少个对象?". 代码: 1 ...

分布式系统类型

分布式系统目前常见的有两类:集群计算系统.网格计算系统.集群计算系统是同构系统,而网格计算系统是异构系统. 1.集群计算系统分为主节点和计算节点,计算节点实际上运行的是单一的操作系统,其上运行的是独 ...

深入C#数据类型

值类型和引用类型常用的数据类型整形 int 浮点型 foalt 双精度浮点型 double 字符串 string 布尔 bool 枚举 enum 值类型值类型继承与System.Va ...

wait_event族函数浅析

2017-06-03 周末闲暇无事,聊聊内核中的wait_event*类函数的具体实现,等待事件必定涉及到某个条件,而这些函数的区别主要是等待后唤醒的方式--直奔主题,上源码 wait_event_i ...

345OA旗舰版（100用户）v10.0.1800注册机

此为345OA系统旗舰版(100用户)v10.0.1800注册机,345OA旗舰版关键特性:支持动态令牌OTP登录:包含Office文档控件,支持Office文档在线编辑.加盖电子印章手写签名:可选工 ...

ORA-00600: internal error code, arguments: [kcratr_nab_less_than_odr], [1], [1498], [18713], [18720]

数据库服务器出现ORA-00600[kcratr_nab_less_than_odr],不能open数据库 1.open数据库报ORA-00600[kcratr_nab_less_than_odr] ...

【转自mos文章】数据库 hang问题的诊断信息收集方法

数据库 hang问题的诊断信息收集方法来源于: How to Collect Diagnostics for Database Hanging Issues (文档 ID 452358.1) 适用于 ...

界面原型Axure

页面原型工具 Axure 超实用页面原型工具.好的页面原型是项目组成员顺利沟通的一个非常重要因素,Axure能快速制作页面原型,还能界面手动式加上事件,链接跳转,弹出层等等一切HTML开发中常用功能, ...

转：jQuery.lazyload详解使用方法

来源:http://www.cnblogs.com/wenbo/archive/2011/07/15/2107579.html jQuery实现图片延迟加载,不知道是否可以节省带宽呢?有人知道吗? 这 ...

[iOS]XCODE5升级之路

原地址:http://www.cnblogs.com/yipu/p/3617521.html 1.Code Sign error: 解决方案:重新下载并安装Provisioning profi ...

安德 SP CCIE备考视频课程之IOS XR Fundamental-全网唯一课程

[学习本课程可以掌握哪些技能] 您通过本视频可以学习到思科SP CCIE考试最重要的设备IOS XR系统的所有配置,帮助你顺利PASS SP CCIE认证. 本课程讲解的内容包含: 如何搭建和使用IO ...

什么是金字塔原理？

在你写作或者表达上面,有好的和坏的区分:那么什么是好的,什么是坏的呢?好的,就是你表达的清晰,有条理,好理解的:读者或者听者能够很顺畅的理解你说表达的,与你达成共识:------那么怎么才能做出好的表 ...

DDD实战成绩管理---需求分析

需求的分析我们采用四色模型.从用户故事中找出MI,然后围绕MI找出其中的role,ppt,des.本次先对两个优先级最高的用户故事进行四色模型建模. 用户故事1建模:作为教务处老师,我要建立教学班,以 ...

orcale序列操作

在orcale中沒有自动增长,所以我们引入序列,以此来实现自动增长. 序列: 是oacle提供的用于产生一系列唯一数字的数据库对象. l 自动提供唯一的数值 l 共享对象 l 主要用于提供主键值 ...

many things for recollection

归一化设计 From abc import ABCmeta, abstractmethod class A(metaclass = ABCmeta): @abstractmethod Def paym ...

使用liblas文件将数据存储为las却打不开问题的原因

liblas是一个通用的las库,用来对las文件进行读写操作.今天使用时,明明数据写入的很正确很成功,但是使用多个点云浏览软件测试,都打开,最后发现了问题所在,再次Mark一下,以供参考. 主要代码 ...

Word Search, 在矩阵中寻找字符串，回溯算法

问题描述: Given a 2D board and a word, find if the word exists in the grid. The word can be constructed ...

二维数组名做参数传递问题

在用二维数组名作为参数传递时容易出现Segmention Error.这是因为不能正确为二维数组中元素寻址的问题,正确的方法如下: #include <stdlib.h> #include ...

分享eclipse自动生成java注释方法

设置方法介绍: eclipse中:Windows->Preferences->Java->Code Style->Code Template->Comments,然后对应 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.