深入理解hadoop数据倾斜

深入理解hadoop之数据倾斜

1、什么是数据倾斜

　　我们在用map /reduce程序执行时，有时候会发现reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。这种现象就是因为key分布不均匀、散度不够导致的，也就是我们所说的数据倾斜。

2、数据倾斜产生的原因

　　在hive上执行join,group by,count distinct等操作的时候可能会发现ruduce阶段卡在99.99%，一直99.99%不能结束，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；这里进一步查看进程日志或者WEBUI会发现：有一个多几个reduce卡住；各种container报错OOM，读写的数据量极大，至少远远超过其它正常的reduce ，伴随着数据倾斜，会出现任务被kill等各种诡异的表现。一般情况下Hive的数据倾斜，都发生在Sql中Group和On上，而且和数据逻辑绑定比较深。

3、数据倾斜解决的办法

　　1)hive.groupby.skewindata变量，这个变量是用于控制负载均衡的。当数据出现倾斜时，如果该变量设置为true，那么Hive会自动进行负载均衡。

　　2)mapjoin方式
3)count distinct的操作，先转成group，再count
4)hive.groupby.skewindata=true
5)left semi jioin的使用
6)设置map端输出、中间结果压缩

原文地址：https://www.cnblogs.com/bigdata-stone/p/9309153.html

时间： 2024-10-08 04:47:37

深入理解hadoop数据倾斜的相关文章

Hadoop数据倾斜及解决办法

数据倾斜:就是大量的相同key被partition分配到一个分区里,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长, 这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完. 解决方案: 1.增加jvm内存,这适用于第一种情况(唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)),这种情况

浅析 Hadoop 中的数据倾斜

转自:http://my.oschina.net/leejun2005/blog/100922 最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一

Hadoop皇-----冠---体育源码搭建与数据倾斜及解决办法

1.增加jvm内存,这适用于第一种情况(唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)),这种情况下,皇------冠--------体育源码搭建QQ:2152876294 网址diguaym.com往往只能通过硬件的手段来进行调优,增加jvm内存可以显著的提高运行效率.2.增加reduce的个数,这适用于第二种情况(唯一值比较多,这个字段的某些值有远远多于其他值的记录数,但是它的占比也小于百分之一或千分之一),我们知道,这种情况下,最容易造成的结果就是大量相同key被partitio

Hadoop皇冠体育源码搭建与数据倾斜及解决办法

1.增加jvm内存,这适用于第一种情况(唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)),这种情况下,皇-冠-体-育源码搭建QQ:2152876294 网址diguaym.com往往只能通过硬件的手段来进行调优,增加jvm内存可以显著的提高运行效率.2.增加reduce的个数,这适用于第二种情况(唯一值比较多,这个字段的某些值有远远多于其他值的记录数,但是它的占比也小于百分之一或千分之一),我们知道,这种情况下,最容易造成的结果就是大量相同key被partition到一个分区,从而一个

hadoop job解决大数据量关联时数据倾斜的一种办法

转自:http://www.cnblogs.com/xuxm2007/archive/2011/09/01/2161929.html http://www.geminikwok.com/2011/04/02/hadoop-jobè§£å?³å¤§æ?°æ?®é??å?³è??æ—¶æ?°æ?®å?¾æ??ç??ä¸?ç§?å??æ³?/ 数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为

大数据数据倾斜

什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢. 相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如: 用Hive算数据的时候reduce阶段卡在99.99% 用SparkStreaming做实时算法时候,一直会有executor出现OOM的错误,但是其余的executor内存使用率却很低. 数据倾斜有

什么是大数据倾斜

来源:https://www.cnblogs.com/gala1021/p/8552302.html 侵删什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢. 相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如: 用Hive算数据的时候reduce阶段卡在99.99% 用SparkStreaming做实时算法时候

spark性能优化：数据倾斜调优

调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能. 数据倾斜发生时的现象 1.绝大多数task执行得都非常快,但个别task执行极慢.比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时.这种情况很常见. 2.原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常

数据倾斜是多么痛？spark作业调优秘籍

目录视图摘要视图订阅 [观点]物联网与大数据将助推工业应用的崛起,你认同么? CSDN日报20170703--<从高考到程序员--我一直在寻找答案> [直播]探究Linux的总线.设备.驱动模型! 数据倾斜是多么痛?spark作业调优秘籍 2017-06-27 13:28 39人阅读评论(0) 收藏举报分类: Spark(124) 原文:https://mp.weixin.qq.com/s?__biz=MzI5OTAwMTM1MQ==&mid=2456

猜你喜欢

loadrunner 12.02 录制手机app脚本

1.用手机连接电脑的360wifi,配置手机wifi连接的HTTP代理地址和端口,代理地址(服务器)为电脑的ip地址,端口可以写1-65535,建议使用不常用的端口,如:9898. 2.打开loadr ...

C++创建窗口程序初步

(1)在主函数里面使用类似下面的语句: MainWindow w; w.show(); 这样创建的窗口只有在程序结束运行的时候才会消失. (2)写一个函数,在函数里面用(1)的代码创建窗口,这样,在函 ...

KMP中next的应用 POJ 2752 Seek the Name, Seek the Fame

Seek the Name, Seek the Fame Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 19163 Ac ...

(一）Linux系统移植之环境搭建

Linux系统移植环境搭建交叉编译工具链:为了编译.链接.处理和调试跨平台体系结构的程序代码.配置的步骤: 解压到/usr/local/arm目录下,执行命令"tar -xvf arm- ...

模仿黑魂锁定目标功能

if (bLocked) { //取消锁定状态 bLockedTarget = false; bUseControllerRotationYaw = false; GetCharacterMoveme ...

用 Xcode 开发 Cydia Substrate 插件（一）

关于这方面的中文资料太少了,以至于可能很多对插件开发感兴趣的孩子们都不知从何下手,于是呢我就写了这篇文章,希望对你能有所帮助.如果你觉得文章内容有什么错误呢也请提出来. 准备开发环境 1. 从 App ...

Matlab调用外部库函数方法和注意事项

在MATLAB环境下访问外部函数的共享库文件,必须首先把该库文件加载到内存中.一旦加载成功,就能直接在MATLAB中直接请求关于函数的任何信息.而当不再需要该库时,就应当及时把库文件从内存中卸载以 ...

黑马程序员 02-成员变量的作用域

———Java培训.Android培训.iOS培训..Net培训.期待与您交流! ——— 1.作用域基本概念局部变量.全局变量都有自己的作用域,成员变量也不例外. 作用域的概念:在什么范围内可以访问 ...

MySQL Database on Azure新功能

本月中国版的MySQL Database on Azure发布了两项新功能: 1.主从复制——只读实例在这之前Azure上的MySQL数据库也是支持主从复制的,但是只能作为on-premises部署 ...

GDI 开发的准备工作

1 需要的链接库和头文件大部分函数在 Gdi.dll 和 Gdi32.dll 提供.相关的函数接口和结构都在 Wingdi.h 文件中(如果工程中已包含 Windows.h 就不需要再包含了,因为 ...

生如夏花

最近断断续续的看了几集<辣妈正传>.其实我很讨厌看家庭剧,就那么点破事折腾过去折腾过来的,太没意思了.作为<甄嬛迷>,只是为了捧一捧孙俪的场子.但最后却被辣妈的精神感动,被这部 ...

ubuntu samba服务器

一. samba的安装: sudo apt-get undate sudo apt-get insall sambasudo apt-get install smbfs 二. 创建共享目录: mkdi ...

HDU 1505 Largest Rectangle in a Histogram && HDU 1506 City Game（动态规划）

1506题意:给你连续的直方图(底边边长为1),求连续的矩阵面积. 对每个直方图,分别向左向右进行扩展. #include<cstdio> #include<stdlib.h> ...

Qt5官方demo解析集18——Chapter 4: Using Custom Property Types

本系列所有文章可以在这里查看http://blog.csdn.net/cloud_castle/article/category/2123873 接上文Qt5官方demo解析集17--Chapter ...

poj1182食物链_并查集_挑战程序设计竞赛例题

食物链 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 65534 Accepted: 19321 Description ...

【bzoj4260】Codechef REBXOR Trie树

题目描述输入输入数据的第一行包含一个整数N,表示数组中的元素个数. 第二行包含N个整数A1,A2,…,AN. 输出输出一行包含给定表达式可能的最大值. 样例输入 5 1 2 3 1 2 样例输出 ...

摘自网络 static void Main(string[] args) { //各物品的概率保存在数组里 float[] area = new float[4]{ 0.5f, 0.5f, 0, 0 ...

浮点型数据

浮点型数据不能精确存储,5.21*100 ?=521.00 浮点型数据转整型数据,为了避免因丢失精度导致转换不准确,可加0.5. 显示浮点型字符串,应避免转换为浮点型数据.

【转】 css 填坑常用代码分享

原文来自:http://www.cnblogs.com/jikey/p/4233003.html 一. css 2.x code 1. 文字换行 /*强制不换行*/ white-space:nowra ...

禁用页面中的复制功能

发现有的网站不能使用复制功能,研究了一下发现这是CSS中的一个属性 --> user-select HTML代码 <div class="select"> &l ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.