2-Spark-1-性能调优-数据倾斜2-Join/Broadcast的使用场景

技术点：RDD的join操作可能产生数据倾斜，当两个RDD不是非常大的情况下，可以通过Broadcast的方式在reduce端进行类似（Join）的操作：

　　broadcast是进程级别的，只读的。

　　broadcast 可以适用于小表的广播，通过广播到对应节点的内存中（受blockManager的管理），该节点的Rdd通过mapPartitions方法，并通过blockmanager获取到broadcast的内容，进行对相同的key进行（join）操作。

　　map方法是将遍历rdd的每个partitions中的每条记录，mapPartitions是遍历到rdd的每个Partitions，相当是基于一个数组（相当于每个partition的缓存）进行批量操作。

适用场景：这种通过Broadcast广播的方式适用于小表，不适用于RDD的数据量非常大的情况，可能会导致OOM,并且对于Gc也是一个比较大的负担（broadcast的变量占用的内存，很容易就会成为Jvm中老年代的成员，且占用较大）。

原文地址：https://www.cnblogs.com/ywdjx/p/2-Spark-1-performance2.html

时间： 2024-10-29 15:38:12

2-Spark-1-性能调优-数据倾斜2-Join/Broadcast的使用场景的相关文章

spark性能调优数据倾斜内存不足 oom解决办法

[重要] Spark性能调优--扩展篇 : http://blog.csdn.net/zdy0_2004/article/details/51705043

Spark的性能调优

下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. Data Serialization,默认使用的是Java Serialization,这个程序员最熟悉,但是性能.空间表现都比较差.还有一个选项是Kryo Serialization,更快,压缩率也更高,但是并非支持任意类的序列化. Memory Tuning,Java对象会占用原始数据2~5倍甚至更多的空间.最好的检测对象内存消耗的办法就是创建RDD,然后放到cache里面去,然后在UI 上

Spark Streaming性能调优详解（转）

原文链接:Spark Streaming性能调优详解 Spark Streaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改.由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然Spark Streaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不一定试用于你的程序,一个好的配置是需要慢慢地尝试

Spark 常规性能调优

1. 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略. --driver-memory 配置Driver内存(影响不大) 内存大小影响不大资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示: /usr/opt/modules/spark/bin/spark-submit --class c

揭秘Spark应用性能调优

引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即我们所说的大规模的数据集处理.为了充分利用Spark特性,应该考虑一些调优技术.本文每一小节都是关于调优技术的,并给出了如何实现调优的必要步骤.本文选自<Spark GraphX实战>. 1 用缓存和持久化来加速 Spark 我们知道Spark 可以通过 RDD 实现计算链的原理 :转换函数包含在 RDD 链中,但仅在调用 action 函数后才会触发实际的求值过程,执行分布式运算,返回运算结果.要是在同一 RDD 上重复调用

Apache Spark Jobs 性能调优

当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如transformation,action,RDD 等等. 了解到这些是编写 Spark 代码的基础. 同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解一些新的名词: job, stage, task.对于这些新术语的理解有助于编写良好 Spark 代码.这里的良好主要指更快的 Spark 程序.对于 Spark 底层的执行模型的了解对于写出效率更高

【转载】Apache Spark Jobs 性能调优（二）

调试资源分配 Spark 的用户邮件邮件列表中经常会出现 "我有一个500个节点的集群,为什么但是我的应用一次只有两个 task 在执行",鉴于 Spark 控制资源使用的参数的数量,这些问题不应该出现.但是在本章中,你将学会压榨出你集群的每一分资源.推荐的配置将根据不同的集群管理系统(YARN.Mesos.Spark Standalone)而有所不同,我们将主要集中在YARN 上,因为这个Cloudera 推荐的方式. Spark(以及YARN) 需要关心的两项主要的资源是 CP

【转载】Apache Spark Jobs 性能调优（一）

当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如 transformation,action,RDD 等等. 了解到这些是编写 Spark 代码的基础. 同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解一些新的名词: job, stage, task.对于这些新术语的理解有助于编写良好 Spark 代码.这里的良好主要指更快的 Spark 程序.对于 Spark 底层的执行模型的了解对于写出效率更

[大数据性能调优] 第一章：性能调优的本质、Spark资源使用原理和调优要点分析

本課主題大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子引言我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让直式进入性能调优都是一个至关重要的问题,它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优.希望这篇文章能为读者带出以下的启发: 了解大数据性能调优的本质了解 Spark 性能调优要点分析了解 Spark 在资

猜你喜欢

2017多校第8场 HDU 6143 Killer Names 容斥，组合计数

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6143 题意:m种颜色需要为两段长度为n的格子染色,且这两段之间不能出现相同的颜色,问总共有多少种情况. ...

硅谷社交2--欢迎页面

SplashActivity public class SplashActivity extends Activity { private Handler handler = new Handler( ...

dokuwiki 安装

第一.安装依赖包我们在安装DokuWiki之前,是需要安装依赖包的,这里分别从debian和centos两个系统版本进行安装. 1.Debian apt-get updateapt-get upgr ...

npm 国内镜像资源 --转载

npm 是node.js 环境下的包管理器,非常强大智能. 生活这这片神奇的土地上,各种奇葩手段屡见不鲜啊. 为什么要换源? npm 官方站点 http://www.npmjs.org/ 并没有被墙, ...

Unix编程艺术读书笔记（一）

Unix编程艺术读书笔记(一)这本书是一位面试官告诉我的,很感谢他的指点,关于面试的详细过程,我想以后再写,当然我也意识到自己的不足,一方面是面试的技巧,还有一方面就是学习的方法.阅读这本书很享 ...

Hibernate的映射组成关系

建立域模型(Java的对象模型)和关系数据模型(数据库表模型)有着不同的出发点: 域模型: 由程序代码组成, 通过细化持久化类的的粒度(就是通过把相同的属性,规划为一个类)可提高代码的可重用性, 简化 ...

JavaReflection（转载）

平时看代码时,总是碰到这些即熟悉又陌生的名次,每天都与他们相见,但见面后又似曾没有任何的交集,所以今天我就来认识下这两个江湖侠客的背景: CLASS 在Java中,每个class都有一个相应的Clas ...

Voting CodeForces - 749C

有点意思的题 Voting CodeForces - 749C 题意:有n个人投票,每次按照第1个人~第n个人的顺序发言,如果到某个人发言时他已经被禁止发言就跳过,每个人发言时可以禁止另一个人发言或什 ...

如何将源代码文件进行优化

[[email protected] ~]# cat 1.py # 要进行优化的源码文件 #!/usr/bin/python print 'Hello World' [[email protected ...

Oracle RAC 重建OCR和Votedisk

哈哈,刚说最后一篇,闲的无聊又搞了个测试. 环境: OS:redhat 5.8 DB:Oracle 10.2.0.5 raw device 我们要养成经常备份ocr跟votedisk的习惯.但是ocr ...

转载：monkeyrunner之eclipse中运行monkeyrunner脚本之环境搭建（四）

转载自:lynnLi 的monkeyrunner之eclipse中运行monkeyrunner脚本之环境搭建(四) monkeyrunner脚本使用Python语法编写,但它实际上是通过Jython来 ...

axis调用webservice客户端开发

第一步:wsdl2Java.bat文件编写 Axis_Lib表示依赖的jar包路径 Output_Path表示生成的class路径 Package包名还需要手动更改 -p %Package%表示we ...

JQuery选择器，动画，事件和DOM操作

JQuery是由JS封装的一些方法,供我们调用,可以快速的实现某些JS功能,实际是JS编写的方法包将JQuery文件放到JS文件夹下,然后引用到<head></head>中 ...

mysql查看表结构2种方式对比

1.desc t_bookType; 2.show create table t_bookType; 相信大部分人还是喜欢第一种查看表结构方式.

硬盘的各种区概念

各种分区主分区,扩展分区,逻辑分区,活动分区,系统分区,启动分区......... 主引导扇区,MBR,bootloader.......... 各种概念,你都清楚什么意思吗? 花了一天的时间终于研 ...

MTK Android键盘输出增加按键码

Android键盘输出增加按键码开发过程中免不得需要增加或减少按键码值,在android2.3系统事件处理部分,主要向上层提供统一的按键码(KeyCode),这个按键码是一个整数,在上层的JAVA程 ...

ISP BGP 试验试验文档下载 <下载后,把后缀名改为pdf> http://down.51cto.com/data/2082454 1-BGP选路规则发生选路的前提: 没有同步问题 ...

js操作cookies

从事web开发也有些日子了,cookie 是个啥差不多能说明白,可是实际自己一上手操作就是得去搜索(你们懂的),结果被鄙视了...所以就写一篇博文做为自己的学习笔记,嘿嘿,博客的好处在此体现出来了. ...

第一个Activity传到第二个Activity

第一个activity Intent intent = new Intent(); intent.setClass(LoginActivity.this, MainActivity.class); i ...

（DT系列五）Linux kernel 是怎么将 devicetree中的内容生成plateform_device

Linux kernel 是怎么将 devicetree中的内容生成plateform_device 1,实现场景(以Versatile Express V2M为例说明其过程)以arch/arm/ma ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.