Hadoop Mapreduce中shuffle 详解

MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程

Shuffle 过程：

首先，map 输出的<key,value > 会放在内存中，内存有一定的大小，超过之后，会将内存里的东西溢写（spill）到磁盘（disk)中。在从内存溢写到磁盘的过程中，会有两个操作：分区（parttition),排序（sort）。map结束之后，磁盘中会有很多文件。

有很多小文件，需要将文件进行文件的合并，并且排序。map 中的一些map任务可能结束....

合并的大文件，存在map task 运行的本地磁盘，reduce task 会去map task 运行机器上拷贝要处理的数据，多个reduce task 拷贝的数据，也得进行merge，并且排序。然后进行分组（将相同的key 的value 放在一起），然后调用reduce 方法。

map输出的<key,value> 和 reduce 输入的<key,value> 的数据类型一致

综上所述：

分区 partition

排序 sort

copy 用户无法干涉

分组 group

压缩 compress 可设置

combiner

原文地址：https://www.cnblogs.com/pickKnow/p/10773403.html

时间： 2024-10-08 10:44:17

Hadoop Mapreduce中shuffle 详解的相关文章

Hadoop MapReduce执行过程详解（带hadoop例子）

https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出.Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中.整个流程如图: Mapper任务的执行过程详解每个Mapper任

第37课：Spark中Shuffle详解及作业

1.什么是Spark的Shuffle 图1 Spark有很多算子,比如:groupByKey.join等等都会产生shuffle. 产生shuffle的时候,首先会产生Stage划分. 上一个Stage会把计算结果放在LocalSystemFile中,并汇报给Driver: 下一个Stage的运行由Driver触发,Executor向Driver请求,把上一个Stage的计算结果抓取过来. 2.Hadoop的Shuffle过程图2 该图表达了Hadoop的map和reduce两个阶段,通过S

hadoop应用开发技术详解

<大数据技术丛书:Hadoop应用开发技术详解>共12章.第1-2章详细地介绍了Hadoop的生态系统.关键技术以及安装和配置:第3章是 MapReduce的使用入门,让读者了解整个开发过程:第4-5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O:第6章分析了 MapReduce的工作原理:第7章讲解了如何利用Eclipse来编译Hadoop的源代码,以及如何对Hadoop应用进行测试和调试:第8-9章细致地讲解了MapReduce的开发方法和高级应用:第10-12章系统地讲

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持

Hadoop下面WordCount运行详解

单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到.单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数,如下图所示. 现在我们以"hadoop"用户登录"Master.Hadoop"服务器. 1. 创建本地的示例数据文件: 依次进入[Home]-[hadoop]-[ha

Hadoop集群WordCount详解

Hadoop集群WordCount详解 MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.MapReduce 理论介绍 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两

Android中Context详解 ---- 你所不知道的Context

转载至 :http://blog.csdn.net/qinjuning 前言:本文是我读<Android内核剖析>第7章后形成的读书笔记 ,在此向欲了解Android框架的书籍推荐此书. 大家好, 今天给大家介绍下我们在应用开发中最熟悉而陌生的朋友-----Context类 ,说它熟悉,是应为我们在开发中时刻的在与它打交道,例如:Service.BroadcastReceiver.Activity等都会利用到Context的相关方法 : 说它陌生,完全是因为我们真正的不懂Context

Android中Context详解 ---- 你所不知道的Context (转载)

Android中Context详解 ---- 你所不知道的Context (转载) http://blog.csdn.net/qinjuning 大家好, 今天给大家介绍下我们在应用开发中最熟悉而陌生的朋友-----Context类 ,说它熟悉,是应为我们在开发中时刻的在与它打交道,例如:Service.BroadcastReceiver.Activity等都会利用到Context的相关方法 : 说它陌生,完全是因为我们真正的不懂Context的原理.类结构关系.一个简单的问题是,一个应用

MySQL中EXPLAIN详解

MySQL中EXPLAIN详解 explain显示了mysql如何使用索引来处理select语句以及连接表.可以帮助选择更好的索引和写出更优化的查询语句. 使用方法,在select语句前加上explain就可以了: 如:explain select username,first_name form hx,itlearner where a.id=b.id EXPLAIN列的解释: id:本次 select 的标识符.在查询中每个 select都有一个顺序的数值. select_type :查询类

猜你喜欢

Ubuntu14.04 LTS更新源

不同的网络状况连接以下源的速度不同, 建议在添加前手动验证以下源的连接速度(ping下就行),选择最快的源可以节省大批下载时间. 首先备份源列表: sudo cp /etc/apt/sources.l ...

天翼杯大数据算法应用大赛感想

竞赛过去很久了,早就想写写感想与经历,可是一直拖着没写.今天终于有时间了,就写写吧. 竞赛题目是视频网站推荐,根据前七周每天用户对10个视频网站的访问次数数据以及其他上网行为,预测用户第八周对10个视 ...

【转】自定义UITableViewCell控件阻挡回调不到didSelectRowAtIndexPath的解决办法

原文网址:http://blog.talisk.cn/blog/2015/09/01/uitableview-didselectrowatindexpath-cannot-be-called-tips ...

我是一只IT小小鸟读后感

说实话,刚刚看完这本书的时候我是很迷茫的.好像书中的很多坏的现象就是我们现在生活的真实写照.其中的重点我觉得在于学习氛围的影响上,我认为,学习氛围是在学习生活中最最重要的一环,似乎所有的缺点,所有的不 ...

shell_工作中用到文件

菜单功能,执行显示 #!/bin/bash#菜单选择功能,执行命令while true #无限循环doclearecho '-----------------------------'echo '1. ...

悄悄告诉你学习Java的必要性

Java是软件开发同学最熟悉的一种开发语言,古老但很流行,再加上现在android开发发展形势一片大好,更让Java的魅力十足.不少同学想参加Java培训,但是心存疑问,不知道值不值得去学习,那今小编 ...

第一个 Servlet Servlet是 Sun公司提供的一门用于开发动态web资源的技术. Sun 公司在其API中提供了一个servlet接口,用户若想开发一个动态web资源,需要完成以下两个步骤 ...

每个人真正强大起来都要度过一段没有人帮忙

每个人真正强大起来都要度过一段没有人帮忙,没有人支持的日子.所有的事情都是自己一个人撑,所有的情绪都只有自己知道.但是只要咬牙撑过去,一切都不一样了.无论你是谁,无论你在经历什么,坚持住,你定会看到一 ...

Emacs 从入门到精通

1 前言不想再说废话了,既然你会阅读这篇文档,说明你多少对Emacs有些兴趣,或者已经非常熟悉Emacs的基础操作了,并且希望有所提高.因此我不需要再把"编辑器之神,还是神的编辑器& ...

『MicroPython』Hello uPy

官网买了几乎全套.一路曲折:7月10号下单,13号发货,14号法兰克福过关,23号到北京,25号到上海,27号到沪C:沪C邮局投3次未果,中彩票一样终于打通了投递部电话才在次日28号“妥投”:又因出差 ...

基于Metronic的Bootstrap开发框架经验总结（5）--Bootstrap文件上传插件File Input的使用

Bootstrap文件上传插件File Input是一个不错的文件上传控件,但是搜索使用到的案例不多,使用的时候,也是一步一个脚印一样摸着石头过河,这个控件在界面呈现上,叫我之前使用过的Uploadi ...

jsp视频如何播放

网站开发小白们对如何插入视频有较大的困扰,一段时间不知道从何下手,想在数据库里面直接导入,但没能成功,后又尝试直接在myeclipse里面直接放入视频. 对于不同的播放器,视频的格式也有要求,建议使用 ...

Unity3D 判断鼠标是否按在UGUI上

判断鼠标是否点击在UGUI上 #if UNITY_ANDROID && !UNITY_EDITOR #define ANDROID #endif #if UNITY_IPHONE &a ...

JDBC的crud通用方法

package com.platform_db.dao.impl; import java.sql.Connection;import java.sql.PreparedStatement;impor ...

Spring AMQP 源码分析 07 - MessageListenerAdapter

### 准备 ## 目标了解 Spring AMQP 如何用 POJO 处理消息 ## 前置知识 <Spring AMQP 源码分析 04 - MessageListener> ## 相 ...

fidder模拟post提交到PHP遇到的问题

http头必须带上Content-type: application/x-www-form-urlencoded 之后 ,php 才能接收到post数据 1. 用php://input可以很便捷的取 ...

Knockout学习之表单绑定器（上）

表单绑定器 “click”绑定 Click 绑定器可以将javascript函数绑定到指定的dom元素,并且再该元素被点击时将触发绑定的函数,大多数情况下都会使用button.input和a元素,当然 ...

前端微信小程序源码开发大神牛

代码规范:变量与方法使用尽量使用驼峰式命名,避免使用$开头. 以$开头的方法或者属性为框架内建方法或者属性,可以被使用,使用前请参考API文档入口,页面,组件的命名后缀为.wpy.外链的文件可以是其它 ...

SQLSERVER截取字符串

1 DECLARE @Name NVARCHAR (50) 2 SET @Name = '\EXAM\061023478874' 3 4 DECLARE @Position INT 5 6 --sql ...

批处理总结

预定义的变量下面是些已经被底层定义好可以直接使用的变量:不会出现在 SET 显示的变量列表中%CD% - 扩展到当前目录字符串.%DATE% - 用跟 DATE 命令同样的格式扩展到当前日期.%TIM ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.