Hadoop 对MapReduce的理解

对MapReduce的理解
1. 客户端启动一个作业
2. 向JobTraker请求一个JobId
3. 将资源文件复制到HDFS上，包括Jar文件，配置文件，输入划分信息等
4. 接收作业后，进入作业队列，根据输入划分信息为每个划分创建一个map任务，并将map任务分配给TaskTracker来执行(运算移动，数据不移动)分配Reduce任务时，不考虑数据本地化
5. TaskTracker每隔一段时间向JobTracker发送一个心跳, 告诉JobTracker它仍在运行，同时心跳中还带有很多信息，比如任务进度

Map端
1. 输入分片(默认64M)进入Map，输出则暂且放到缓存中，缓冲区快要溢出时，会在本地创建一个溢出文件
2. Partition(hash)和分区的内部排序，每个分区对应一个reduce任务
3. 合并这些溢出文件
  - 减少每次写入磁盘的数据量
  - 减少下一阶段网络传输的数据量
4. 将分区中的数据拷贝给reduce任务(map-TaskTracker-JobTracker)

Reduce端
1. 接收到每个map传输来的有效数据(有序),超过了缓冲区，就写入到磁盘中
2. 将溢出文件不断合并成一个更大的有序文件
3. 最后一次合并的数据，不输出到磁盘，直接输出到reduce函数中

时间： 2024-10-12 17:09:23

Hadoop 对MapReduce的理解的相关文章

Hadoop新MapReduce框架Yarn详解

简介本文介绍了Hadoop自0.23.0版本后新的MapReduce框架(Yarn)原理,优势,运行机制和配置方法等,着重介绍新的yarn框架相对于原框架的差异及改进,并通过Demo示例详细介绍了在新的Yarn框架下搭建和开发Hadoop程序的方法.读者通过本文中新旧Hadoop MapReduce框架的对比,更深刻理解新的yarn框架技术与那里和设计思想,文中的Demo代码经过微小修改既可用于用户基于Hadoop新框架的实际生产环境. Hadoop MapReduceV2(Yarn)框架简介

从Hadoop骨架MapReduce在海量数据处理模式（包括淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇.而神奇的东西常能勾起我的兴趣.在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理. 由此,近期凡是空暇时,便在看"Hadoop"."MapReduce""海量数据处理"这方面的论文.但在看论

Hadoop hdfs&mapreduce核心概念

1.HDFS(分布式文件系统体系) 1.1.NameNode:(名称节点) Hdfs的守护程序记录文件是如何分割成数据块的,以及这些数据块被存储到了哪些节点上对内存和I/O进行集中管理是个单点,发生故障将使集群崩溃 1.2.SecondaryNamenode(辅助名称节点):发生故障进行人工的设置才能实现集群崩溃的问题监控HDFS状态的辅助后台程序每个集群都有一个与NameNode进行通讯,定期保存HDFS元数据快照与NameNode故障可以作为备用NameNode使用 1.3.D

Hadoop之MapReduce

http://blog.csdn.net/wangloveall/article/details/21407531 摘要:MapReduce是Hadoop的又一核心模块,从MapReduce是什么,MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce. 关键词:Hadoop MapReduce 分布式处理面对大数据,大数据的存储和处理,就好比一个人的左右手,显得尤为重要.Hadoop比较适合解决大数据问题,很大程度上依赖其大数据存储系统,即HDFS

Hadoop 新 MapReduce 框架 Yarn 详解

原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobCli

Hadoop之MapReduce程序应用三

摘要:MapReduce程序进行数据去重. 关键词:MapReduce 数据去重数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 2014-1-1 wangluqing 2014-1-2 root 2014-1-3 root 2014-1-4 wangluqing 2014-1-5 root 2014-1-6 wangluqing log-file2.txt内容 2014-1-1 root 2014-

用PHP编写Hadoop的MapReduce程序

用PHP写hadoop的mapreduce程序 Hadoop本身是Java写的,所以,给hadoop写mapreduce,人们会自然地想到java 但hadoop里面有个contrib叫做hadoop streaming,这是一个小工具,为hadoop提供streaming支持,使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper 或者 reducer 例如:hadoop jar hadoop-streaming.jar -input SOME_IN

Hadoop之MapReduce程序分析

摘要:Hadoop之MapReduce程序包括三个部分:Mapper,Reducer和作业执行.本文介绍和分析MapReduce程序三部分结构. 关键词:MapReduce Mapper Reducer 作业执行 MapReduce程序包括三个部分,分别是Mapper,Reducer和作业执行. Mapper 一个类要充当Mapper需要继承MapReduceBase并实现Mapper接口. Mapper接口负责数据处理阶段.它采用形式为Mapper<K1,V1,K2,V2>的Jav

对于Hadoop的MapReduce编程makefile

根据近期需要hadoop的MapReduce程序集成到一个大的应用C/C++书面框架.在需求make当自己主动MapReduce编译和打包的应用. 在这里,一个简单的WordCount1一个例子详细的实施细则,注意:hadoop版本号2.4.0. 源码包括两个文件.一个是WordCount1.java是详细的对单词计数实现的逻辑.第二个是CounterThread.java.当中简单的当前处理的行数做一个统计和打印.代码分别见附1. 编写makefile的关键是将hadoop提供的jar包的路径