spark新能优化之shuffle新能调优

shuffle调优参数

new SparkConf().set("spark.shuffle.consolidateFiles", "true")

spark.shuffle.consolidateFiles：是否开启shuffle block file的合并，默认为false//设置从maPartitionRDD上面到到下个stage的resultTask时数据的传输快可以聚合（具体原理可以看下shuffle的原理设置和没设置的区别）
spark.reducer.maxSizeInFlight：reduce task的拉取缓存，默认48m//设置拉取的缓存大,可以一次性拉取比较多的数据量达到减少拉取数据的次数
spark.shuffle.file.buffer：map task的写磁盘缓存，默认32k//设置磁盘buff缓存,减少溢写到磁盘的次数，从而加高buff处的性能
spark.shuffle.io.maxRetries：拉取失败的最大重试次数，默认3次//此处可以防止mirror GC或者Full GC的时候task线程被java的垃圾回收线程给占用,造成拉取失败,如果重试次数为3每次5秒,总共才15秒，FullGC是1分钟的话。就时间远远不够。spark会认为拉取失败报错甚至导致这个application崩溃
spark.shuffle.io.retryWait：拉取失败的重试间隔，默认5s//同上
spark.shuffle.memoryFraction：用于reduce端聚合的内存比例，默认0.2，超过比例就会溢出到磁盘上//设置或者加大reduce内存比可以加大reduce的内存减少溢写磁盘的次数

时间： 2024-10-26 11:44:30

spark新能优化之shuffle新能调优的相关文章

《Java程序性能优化》学习笔记 Ⅳ JVM调优

第五章 JVM调优5.1 Java虚拟机内存模型1.JVM虚拟机将其内存数据分为程序计数器.虚拟机栈,本地方法栈,Java堆,和方法去等部分.5.2 JVM内存分配参数5.3 垃圾收集基础5.4 常用调优案例和方法5.5 使用JVM参数5.6 实战JVM调优 <Java程序性能优化>学习笔记 Ⅳ JVM调优

Spark技术内幕：Shuffle的性能调优

通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论.它也是非常影响性能的操作之一.因此,在这里整理了会影响Shuffle性能的各项配置.尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结. 1.1.1 spark.shuffle.manager 前文也多次提到过,Spark1.2.0官方支持两种方式的Shuffle,即Hash Based Shuffle和Sort Based Shuffle.其中在Sp

spark shuffle参数及调优建议（转）

原文:http://www.cnblogs.com/arachis/p/Spark_Shuffle.html spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小.将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘. 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle

Spark日志分析项目Demo(9)--常规性能调优

一分配更多资源分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的:基本上,在一定范围之内,增加资源与性能的提升,是成正比的:写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置:在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限:那么才是考虑去做后面的这些性能调优的点. 问题: 1.分配哪些资源? 2.在哪里分配这些资源? 3.为什么

Spark Streaming 官网上提到的几点调优

总的来说,需要考虑以下两点: 1. 有效地运用集群资源去减少每个批次处理的时间 2. 正确的设置batch size,以使得处理速度能跟上接收速度一. 为了减少处理时间,主要有以下几个优化点: 1. 接收数据的并行度. 每个InputDStream只创建一个Receiver用于接收数据,如果接收数据是系统的瓶颈,可以创建多个InputDStream.配置不同的InputDStream读取数据源的不同分区.比如原先用一个InputDStream读取Kafka的两个topic的数据,可以拆分成两

mysql的从头到脚优化之服务器参数的调优

一. 说到mysql的调优,有许多的点可以让我们去做,因此梳理下,一些调优的策略,今天只是总结下服务器参数的调优其实说到,参数的调优,我的理解就是无非两点: 如果是Innodb的数据库,innodb_buffer_pool_size就开的尽可能大点,我一般都是开内存的80%左右如果是MyISAM的数据库,key_buffer_size就尽可能的开的大点. 我觉得这是非常重要的两个参数,下面是重点介绍下,这两个参数的作用: innodb_buffer_pool_size: 该参数是用来

【Java/Android性能优化1】Android性能调优

本文参考:http://www.trinea.cn/android/android-performance-demo/ 本文主要分享自己在appstore项目中的性能调优点,包括同步改异步.缓存.Layout优化.数据库优化.算法优化.延迟执行等. 一.性能瓶颈点整个页面主要由6个Page的ViewPager,每个Page为一个GridView,GridView一屏大概显示4*4的item信息(本文最后有附图).由于网络数据获取较多且随时需要保持页面内app下载进度及状态,所以出现以下性能问题

MySQL 优化之 Linux系统层面调优

http://www.cnblogs.com/digdeep/p/4885948.html MySQL 一般运行于Linux系统中.对于MySQL的调优一般分为Linux操作系统层面的调优和MySQL层面的调优(当然还有架构层面.业务层面.应用程序层面的调优).操作系统主要是管理和分配硬件资源,所以其实系统层面的调优包括了硬件的调优,也就是调整硬件参数.Linux系统层面的调优一般分为 CPU的调优.内存的调优.磁盘的调优.网络的调优.Linux后台service调优等等. 1. CPU 调优

Spark调优秘诀

1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了? 1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte.由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个int的域.一般这样设计是不合理的,造成对象的"浪费",在实际开发中应避免这种情况. 2.Java的String对象,会比它内部的原始数据要多出40个字节.因为它内部使用char数组来保存内部的字符序列的,并且还得保存诸如数组长度之类的信息.而且String使

猜你喜欢

Mac 环境变量

Tomcat 1.到 apache官方主页下载 Mac 版本的完整 tar.gz文件包.解压拷贝到 /Library目录下,并命名为Tomcat,其他目录也可. 2.修改目录权限到终端输入 sud ...

js框架参考网址或引用代码

jQuery: http://jquery.cuishifeng.cn/ touch.js: /*! touchjs.min v0.2.14 2014-08-05 */ "use stric ...

勿忘初心，方得始终

SOAP传输协议客户端请求和Web服务响应作为SOAP(Simple Object Access Protocol)的消息,通过HTTP协议进行传输.SOAP协议使得客户端与Web服务间的信息传递过 ...

mogodb(1) 简介

1 引言 NoSQL,全称是"Not Only Sql",指的是非关系型的数据库.这类数据库主要有这些特点:非关系型的.分布式.开源的.水平可扩展的.原始目的是为了大规模web应用 ...

Android项目开发全程（二）--Afinal用法简单介绍

本篇博文接上篇的<Android项目开发全程(一)--创建工程>,主要介绍一下在本项目中用到的一个很重要的框架-Afinal,由于本系列博文重点是项目开发全程,所以在这里就先介绍一下本项目 ...

教你用笔记本破解无线路由器password

近期非常多人问我怎么破解WiFipassword…看来大家都对免费的东西比較有兴趣.要么也可能是我太招摇了…囧… 好吧,我就写篇小小的教程,看完后,你应该可以破解大部分无线路由器password了,写 ...

[原创]程序员分析程序log最实用技巧

作为一名通信码农,经常性分析大篇幅的log.久而久之,如何快速的在十兆百兆的文本log中理清问题发生的场景,问题的定位, 逐渐的有了一点心得,这篇文章分享出来,希望能交流经验. 我经验的核心是使用正则 ...

树莓派vnc远程桌面

在没有显示器的情况下,可以使用putty远程终端登录树莓派.然而,所有的操作都要通过输入命令来执行,这对于习惯了桌面可视化操作的我们来说一时可能难以适应. 一种解决的方法是使用vnc远程桌面. 首先要 ...

2015年Java开发岗位面试题归类

一.Java基础 1. String类为什么是final的. 2. HashMap的源码,实现原理,底层结构. 3. 说说你知道的几个Java集合类:list.set.queue.map实现类咯... ...

QTabWiget Remove Line Border 去除边框

Qt中的QTabWiget 类提供了一个标签控件,但是这个控件默认是有边框的,如果我们不想要边框,也可以去掉这个边框,我们可以在cpp文件中添加一行代码: tabwidget.setStyleShee ...

【转】CUDA与二维动态数组

1 /* 2 * Copyright 徐洪志(西北农林科技大学.信息工程学院). All rights reserved. 3 * Data: 2012-4-22 4 */ 5 // 6 // 此程序 ...

Java: Best Way to read a file

经常在各种平台的online test里面不熟悉STDIN, STOUT,下面举个例子: 另外一个例子:从system.in读取一行作为输入String, 得到返回结果之后把它写入到指定位置的文件当中 ...

Eclipse中的Web项目自己主动部署到Tomcat

一.原因. 1.写java程序有一段时间了,但非常久没用eclipse了.所以使用eclipse编写的web项目部署到tomcat 的方式也不是非常清楚,以下记录一下将Eclipse 上的web项目自 ...

一台服务器上多tomcat实例的启动脚本

公司有一台服务器起了多个tomcat,每次需要重启,查看catalina.out输出都特别麻烦,写了一个脚本,贴出来,希望有经验的前辈指点一二,脚本如下: #!/bin/sh echo "请 ...

Extjs的grid数据加载之后默认选择第一行数据

store.load({ callback:function(r){// 回调函数 if(r.length>0){ //判断是否有数据 grid.getSelectionModel(). ...

BeautifulSoup ：功能使用

# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Envirom ...

ARM安装ROS- indigo

Ubuntu ARM install of ROS Indigo 溪西创客小屋 There are currently builds of ROS for Ubuntu Trusty armhf. T ...

体验vSphere 6之2-为VMware ESXi分配iSCSI存储空间

体验vSphere 6之2-为VMware ESXi分配iSCSI存储空间 5 为VMware ESXi分配iSCSI存储空间返回到Windows Server 2008 R2的主机,打开" ...

ardunio 1 processing 显示三轴数据

http://blog.csdn.net/Fortware/article/details/38307799 /** * Mixture * by Simon Greenwold. * * Displ ...

电梯演说模板作业

各位领导/投资人/用户/合作伙伴:我们的这款美图软件产品,是为了解决广大用户的拍照丑,周围背景杂乱的痛苦,有些人喜欢自拍,拍照效果往往不如人意,但是现有的方案并没有很好地解决这些需求,我们有独特的办法 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.