大数据框架-Mapreduce过程

1、Shuffle

[从mapTask到reduceTask: Mapper -> Partitioner ->Combiner -> Sort ->Reducer]

mapper对job任务进行键值对构建并写入环形内存缓冲区[缓冲区满了，map停止直到全写入磁盘]，大小100MB(io.sort.mb)，一旦达到0.8(io.sort.spill.percent)读入量，即将内存内容经过partitioner分区和sort排序，和combiner合并写入到磁盘一个溢写出文件目录下(mapred.local.dir)。当数据读取完成，将磁盘所有溢出文件合并成一个大文件(同样是经过分区和排序后的文件)。将映射关系提交给AppMaster。

reducer通过心跳机制到AppMaster获取映射关系，再通过Http方式得到文件分区，不同区号文件进入不同reducer，再合并排序进行reduce处理。

Mapper：输出键值对集合（函数setup、map、cleanup、run）；

Partitioner：分区，并确保分区号大于或等于reducer的个数。对Mapper结果进行计算确定交给哪个reducer来计算；

Combiner：在map端执行减少传输到reducer的数据量，看作本地的reducer，实现本地key的归并；但combiner不能改变key/value的类型，适用于不影响最终结果场景(累加、最大值)；

Sort:按照key值排序。

2、hadoop序列化类型（全都继承Writable）

Text:类似于java中的String

基础Writable对象(IntWritable\LongWritable\ BooleanWritable\ ByteWritable\...)

自定义序列化对象

(实现writable接口；

同时实现序列化函数write和反序列化函数readFiles，但写和读顺序和类型要一致；

重写tostring方法，否则输出结果为类全名+hascode值

需要无参构造方法)

3、MapReduce任务实现流程

Client将JAR包信息发送到RM(PRC通信)

RM返回一个jar包存储路径(固定)和一个jobID

Client对路径进行拼接，通过FileSystem将jar包写入到hdfs中(默认情况下jar包写10份)

Client再将jobID，jar包地址，其他配置发送给RM

RM将任务放入调度器（默认先进先出）,NM通过心跳机制获取Mapreduce任务，在HDFS上下载JAR包，启动子进程运行任务

(1)、具体执行过程如下：

函数中主体为submit()，先进行connect()，再使用submitter进行任务调度。

A.

初始化Job持有的cluster对象引用（cluster引用中持有ClientProtocol对象引用）。

Ps: ClientProtocol：RPCserver的代理对象，也可以理解为RM进程对象)。定义了客户端与nameNode间的接口，客户端对文件系统的所有操作都需要通过这个接口，同时客户端读、写文件等操作也需要先通过这个接口与NamenodeRPC通信后后，再进行数据块的读出和写入操作。

B.

通过提交器提交job任务，返回一个PATH

也返回一个Job的ID

拼接上述PATH和JobID

将jar包信息拷贝到HDFS中 job信息，存放job地址和副本数量

提交到服务端RM jobid、jar包地址，其他配置信息，通过RPC通信

原文地址：https://www.cnblogs.com/xiongchang95/p/9633220.html

时间： 2024-10-13 07:55:48

大数据框架-Mapreduce过程的相关文章

2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同. 解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件. 同时,Hadoop还会索引和跟踪

【机器学习实战】第15章大数据与MapReduce

第15章大数据与MapReduce 大数据概述大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据场景假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则随意浏览后就离开. 对于你来说,可能很想识别那些有购物意愿的用户. 那么问题就来了,数据集可能会非常大,在单机上训练要运行好几天. 接下来:我们讲讲 MapRedece 如何来解决这样的问题 MapRedece Hadoop 概述 Hadoop 是 MapRedece 框架的一个免费开源实现. Ma

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink--容错机制（ACK，RDD，基于log和状态快照），消息处理at least once，exactly once两个是关键

分布式流处理是对无边界数据集进行连续不断的处理.聚合和分析.它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别.这类系统一般采用有向无环图(DAG). DAG是任务链的图形化表示,我们用它来描述流处理作业的拓扑.如下图,数据从sources流经处理任务链到sinks.单机可以运行DAG,但本篇文章主要聚焦在多台机器上运行DAG的情况. 关注点当选择不同的流处理系统时,有以下几点需要注意的: 运行时和编程模型:平台框架提供的编程模型决定了许多特色功能,编程模型要足够处理各种

大数据框架整理

大数据离线部分 1.HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存.启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据安全机制以记日志的形式将每一个操作写在磁盘的日志文件中,然后借助Secondary NameNode的checkpoint功能将fsImage和日志进行合并. 重点:记住checkpoint工作过程

给Java开发者的十个大数据框架和工具

当今IT开发人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂.根据外媒的一项调查报告,中软卓越专家列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义. 先来看看大数据的概念.根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的数据处理程序不足以支持如此庞大的体量. 在许多情况下,使用SQL数据库存储/检索数据都是很好的选择.而现如今的很多情况下,它都不再能满足我们的目的,这一切都取决于用例的

新手必备：大数据框架Hadoop主要模块解析

hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来.主要包括系统配置工具Configuration.远程过程调用RPC.序列化机制和Hadoop抽象文件系统FileSystem等.它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API. Hadoop Distributed File System (HDFS?): 分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问.是Hadoop体系

大数据框架—Flink与Beam

Flink概述 Flink是Apache的一个顶级项目,Apache Flink 是一个开源的分布式流处理和批处理系统.Flink 的核心是在数据流上提供数据分发.通信.具备容错的分布式计算.同时,Flink 在流处理引擎上构建了批处理引擎,原生支持了迭代计算.内存管理和程序优化. 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全不相同的:流处理一般需要支持低延迟.Exactly-once保证,而批处理

大数据（MapReduce的编程细节及其Hive的安装，简单操作）

大数据课程第五天 MapReduce编程细节分析 MapReduce中,Reduce可以没有 (纯数据的清洗,不用Reduce) job.setNumReduceTasks(0); 设置多个Reduce // 默认在MapReduce中 Reduce的数量是1 job.setNumReduceTasks(3);?//为什么Reduce的数量可以设置为多个内存角度并行角度 ?//如果Reduce数量多个话,那么生成结果也是多个独立的文件,放置在同一个目录下 Partition 分区分区的作

大数据技术 - MapReduce的Shuffle及调优

本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要分为两部分:1. map 任务输出的数据分组.排序,写入本地磁盘 2. reduce 任务拉取排序.由于该过程涉及排序.磁盘IO.以及网络IO 等消耗资源和 CPU 比较大的操作,因此该过程向来是“兵家必争”之地,即大家会重点优化的一个地方,因此也是大数据面试中经常会被重点考察的地方.本文力求通俗.

猜你喜欢

linux 命令（3）echo

linux的echo命令, 在shell编程中极为常用, 在终端下打印变量value的时候也是常常用到的, echo命令在构建shell脚本时扮演着重要的角色 1. 命令格式 echo[Optio ...

回答了个问题，9x9 乘法表生成器

1 # -*- coding: utf-8 -*- 2 from prettytable import PrettyTable 3 pt = PrettyTable() 4 # 需要安装prettyt ...

Mac OS X中开启或关闭显示隐藏文件

打开终端,输入:defaults write com.apple.finder AppleShowAllFiles -bool true 此命令显示隐藏文件defaults write com.app ...

windows核心编程随笔

MultiByteToWideChar(char *转Unicode) char text[256] = {0}; char text1[256] = {0}; int i=0; GetDlgItem ...

文字校对应该怎么校对？

如果现在给你一篇纸质文档,老板让你把它做成电子版的,这应该不是啥难事,你做完之后要校验一下,于是你一边看纸质文档一边看电子文档很努力的校对,恩,好像没有什么问题.如果老板给你100篇这样的文档,你该怎 ...

Spark Streaming容错的改进和零数据丢失

本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司.过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark ...

bzoj4566【HAOI2016】找相同字符

4566: [Haoi2016]找相同字符 Time Limit: 20 Sec Memory Limit: 256 MB Submit: 128 Solved: 75 [Submit][Stat ...

色彩学基础知识（转）

加法混色采用红(Red).绿(Green).蓝(Blue)三种色光进行混色来显示其他颜色.色光越混合越亮,因此称为加法混色.电视.电脑的显示就采用加法混色原理. 红(R)绿(G)蓝(B)被称为光的三 ...

【小贴士】探一探javascript中的replace

javascript字符串与数组有很多精巧的方法,比如splice.indexOf,而replace在字符串处理中偶尔会产生让人愉悦的效果比如underscore中的模板引擎替换部分,又如信用卡分割 ...

flying中的AOP和IOC

注入属性:private synchronized void injectReferenceServices() { if(this.injectReferenceServicesInitialize ...

Windows 10最新浏览器Spartan和Chrome大比拼

前言这篇文章最初由盆盆发表在华来四微信公众号(微信号:sysinternal).Spartan是Windows 10里的最新浏览器,据说要取代统治已久的IE浏览器!那么我们来看看这个最新的Spart ...

使用Git中的Merge与Rebase与开源项目同步代码

基于开源项目的开发有两种主要工作模式.模式1是在从开源项目中拉出一个分支,在这个分支中开发新feature,完成后合并到upstream中.适用于本身是开源项目的developer.模式2是从开源项目 ...

Python 基础篇1

我是做运维的,由于使用nagios接触到python.感觉学习这门语言挺新鲜也有前途,在一番调研后决定掌握它! 第一天学习掌握了些基础和皮毛,记录一下: 首先学习python的用途,对我来说是自动化运 ...

Linux学习 -- Shell编程 -- 条件判断

按照文件类型进行判断两种格式 test -e /root/install.log [ -e /root/install.log ] 注意空格适合用于脚本中 echo $?可以看到结果 [ - ...

HTML5[5]：在移动端禁用长按选中文本功能

在手机浏览器中,长按可选中文本,但如果在应用中,会给人一种异样的感觉,最好还是禁用此功能为上. * { -webkit-touch-callout:none; -webkit-user-select: ...

多层感知机，非权值共享型卷积神经网络，权值共享型卷积神经网络之间的关系

前言:最近学习深度学习,有感写一点总结. 我们常常所说的神经网络,一般是指原始的多层感知机,简称MLP,它是在原始感知机堆叠多层而成的,MLP完全由全连接层组成(当然也有激活函数),即Caffe里的I ...

转换人民币大小金额

C#控制台测试 class Program { static void Main(string[] args) { decimal rmb = Convert.ToDecimal(Console.Re ...

《需求工程--软件建模与分析》读书笔记三

需求规格说明活动就是将需求极其软件解决方案进行定义和文档化,并传递给开发人员的需求工程活动.编写需求规格说明文档:清晰明确结构化的文档可以将软件系统的需求信息和解决方案更好的传递给所有的开发者:可以拓 ...

【蓝桥杯】入门训练 Fibonacci数列

入门训练 Fibonacci数列时间限制:1.0s 内存限制:256.0MB 问题描述 Fibonacci数列的递推公式为:Fn=Fn-1+Fn-2,其中F1=F2=1. 当n比较大时,Fn也非 ...

Opencv 学习资料集合（更新中。。。）

基础学习笔记之opencv(24):imwrite函数的使用 tornadomeet 2012-12-26 16:36 阅读:13258 评论:9 基础学习笔记之opencv(23):OpenCV坐标 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.