spark新能优化之提高并行度

实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。

Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父RDD的并行度即可。

可以手动使用textFile()、parallelize()等方法的第二个参数来设置并行度；也可以使用spark.default.parallelism参数，来设置统一的并行度。Spark官方的推荐是，给集群中的每个cpu core设置2~3个task。

比如说，spark-submit设置了executor数量是10个，每个executor要求分配2个core，那么application总共会有20个core。此时可以设置new SparkConf().set("spark.default.parallelism", "60")来设置合理的并行度，从而充分利用资源。（实际上spark源码中会先判断work上面剩下多少core再进行分配。不一定准）

时间： 2024-10-20 09:04:37

spark新能优化之提高并行度的相关文章

spark新能优化之多次使用RDD的持久化或checkPoint

如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作.那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算. 此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作.(也就是多次用到中间RDD的生成值时可以持久化再checkPoint(当持久化数据没的时候会去checkPoint中寻找,详细见spark源码.))

spark新能优化之shuffle新能调优

shuffle调优参数 new SparkConf().set("spark.shuffle.consolidateFiles", "true") spark.shuffle.consolidateFiles:是否开启shuffle block file的合并,默认为false//设置从maPartitionRDD上面到到下个stage的resultTask时数据的传输快可以聚合(具体原理可以看下shuffle的原理设置和没设置的区别)spark.reducer.m

spark新能优化之数据本地化

数据本地化的背景: 数据本地化对于Spark Job性能有着巨大的影响.如果数据以及要计算它的代码是在一起的,那么性能当然会非常高.但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上.通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度要快得多,因为代码比较小.Spark也正是基于这个数据本地化的原则来构建task调度算法的. 数据本地化,指的是,数据离计算它的代码有多近.基于数据距离代码的距离,有几种数据本地化级别:1.PROCESS_LOCAL:数据和计

spark新能优化之序列化的持久化级别

除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能.因为很有可能,RDD的数据是持久化到内存,或者磁盘中的.那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如MEMORY_ONLY_SER.MEMORY_AND_DISK_SER等.使用RDD.persist(StorageLevel.MEMORY_ONLY_SER)这样的语法即可. 这样的话,将数据序列化之后,再持久化,可以大大减小对内存的消耗.此外,数据量小了之后,如果要写入磁盘,那么磁盘io性能消耗也比

spark新能优化之广播共享数据

如果你的算子函数中,使用到了特别大的数据,那么,这个时候,推荐将该数据进行广播.这样的话,就不至于将一个大数据拷贝到每一个task上去.而是给每个节点拷贝一份,然后节点上的task共享该数据. 这样的话,就可以减少大数据在节点上的内存消耗.并且可以减少数据到节点的网络传输消耗. final Accumulator<Integer> num = sc.accumulator(Object);

spark新能优化之reduceBykey和groupBykey的使用

val counts = pairs.reduceByKey(_ + _) val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum)) 如果能用reduceByKey,那就用reduceByKey,因为它会在map端,先进行本地combine,可以大大减少要传输到reduce端的数据量,减小网络传输的开销. 只有在reduceByKey处理不了时,才用groupByKey().map(

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region 我们先简单介绍下 Hbase 的架构和 region : 从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又可以有多个 Hregion(以下简称 region).要读取一个数据的时候,首先要先找到存放这个数据的 region.而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的

[转] - Spark排错与优化

Spark排错与优化 http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成Sparkui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启动的master自然也会因为这个原因失败. 解决增加Master的内存占用,在Mas

spark实时计算性能优化

1. 计算提供两种模式,一种是jar包本地计算.一种是JSF服务. 2. 第一步是引入spark,因与netty.JDQ均有冲突,解决netty冲突后,隔离计算为单独服务.已在线上,因storm也与spark存在运行时冲突,storm也在用服务. 3. 第二步是召回集扩量,发现当召回集由200扩到500后性能下降过快到70ms,利用多线程多核计算,性能到6ms.已在线上 4. 第三步在此扩量到1000,采用增加线程方式,性能达到25ms左右.已在预发 5. 第四步召回集在扩量,如性能

猜你喜欢

TEST

实验一 Linux基础 Man man指令找函数 ? ? ? ? ? ? ? ? ? ? ? 实验二 Linux下C语言编程基础删除文本成功删除文本编辑之插入成功插入文本编辑之添加添加完 ...

bzoj2002

2002: [Hnoi2010]Bounce 弹飞绵羊 Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 9214 Solved: 4740[Submi ...

镭周找蕾鸵sd9o9u71r9

http://weibo.com/20151030p/2308373903770856678239?FPKUhttp://3188.la/article/?aid=562909c463419857c4 ...

Binding ,抄自 http://www.cnblogs.com/cnblogsfans/archive/2011/02/19/1958586.html

1. 绑定到其它元素 <Grid> <StackPanel > <TextBox x:Name="textBox1" Height="150 ...

spring mvc 静态资源拦截

在使用spring mvc,servlet配置拦截/所有请求时,静态资源html.js.css等会被拦截,无法访问 <servlet-mapping> <servlet-name&g ...

poj1068题解报告与感想

poj1068描述了这样一个问题:给出一种括号序列的表示形式名叫P序列,规则是统计出每个右括号之前的左括号个数作为序列每项的值.然后要求你根据这个求括号列的W序列值,W序列的规则是统计每一个右括号和与 ...

Android 深入了解View(二)

相信每个Android程序员都知道,我们每天的开发工作当中都在不停地跟View打交道,Android中的任何一个布局.任何一个控件其实都是直接或间接继承自View的,如TextView.Button. ...

一个32岁入门的70后程序员给我的启示

投递人 itwriter 发布于 2016-06-07 21:55 评论(31) 有5367人阅读原文链接 [收藏] « » 文/帅气小伙(简书作者) 大家好,我是帅气小伙,今天为大家带来一个非常励 ...

100513、nginx+tomcat集群+session共享（linux）

第一步:linux中多个tomcat安装和jdk安装(略) 第二步:nginx安装,linux中安装nginx和windows上有点不同也容易出错,需要编译,这里做介绍一.安装依赖 gcc open ...

Android API Guides---Administration

如果您是管理员,您可以利用API和系统能力来管理Android设备和控制访问. 在ICS统一密钥存储访问搭载Android 4.0(ICS)附带了一些改进,使其更容易为人们带来他们的个人的Andro ...

Spring常用jar包的功能

jar名称描述 spring-framework.jar spring框架比较完整的功能,core+aop+ioc+transaction spring-core.jar 基本上的核心工具类,一些u ...

学习笔记之15-预处理指令1-宏定义

预处理指令简介 1.C语言在对源程序进行编译之前,会先对一些特殊的预处理指令作解释(比如之前使用的#include文件包含指令),产生一个新的源程序(这个过程称为编译预处理),之后再进行通常的编译 2 ...

Toast的使用具体解释

Android中提供一种简单的Toast消息提示框机制,能够在用户点击了某些button后,提示用户一些信息,提示的信息不能被用户点击,Toast的提示信息依据用户设置的显示时间后自己主动消失.Toa ...

Git版本管理工具的使用

一.下载安装 windows: https://git-for-windows.github.io/,下载文件后一路next linux: # ubuntu,debian# $ sudo apt-ge ...

oracle的异常处理

/** 写入自动施封命令:[同步webservice使用] wyg 2017-03-12 */ PROCEDURE ISDT_VEHICLE_AutoLock(P_WID IN VARCHAR2, P ...

python之基础篇（七）——类与面向对象

防伪码:忘情公子著面向对象编程(OOP) 程序 = 指令+数据代码可以选择以指令为核心或以数据为核心进行编写. 两种范型: 以指令为核心:围绕"正在发生什么"进行编写面向过程 ...

linux下网卡启动、配置

步骤1.配置/etc/sysconfig/network-scripts/ifcfg-eth0 里的文件. ifcfg-eth0的配置详情:[[email protected] ~]# vim /et ...

vim 字符串出现次数统计（词频）

命令 :%s/pattern//gn 参数说明 % - 操作区间,全文本:可以使用1, $或行区间替代 s - substitute pattern - 查询字符串 // - 无替代文本.如果偏好,中 ...

随笔-文章点击喜欢与不喜欢表情，马上会+1

***********************************js对象Cms.upf = function(base, feelingcountid, origValue, upId, typ ...

互斥的数（hash）

1553 互斥的数时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 有这样的一个集合,集合中的元素个数由给定的N决定,集合的元素为N ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.