[大数据性能调优] 第一章:性能调优的本质、Spark资源使用原理和调优要点分析

本課主題

  • 大数据性能调优的本质
  • Spark 性能调优要点分析
  • Spark 资源使用原理流程
  • Spark 资源调优最佳实战
  • Spark 更高性能的算子

引言

我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让直式进入性能调优都是一个至关重要的问题,它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优。希望这篇文章能为读者带出以下的启发:

  • 了解大数据性能调优的本质
  • 了解 Spark 性能调优要点分析
  • 了解 Spark 在资源优化上的一些参数调优
  • 了解 Spark 的一些比较高效的 RDD 操作算子

大数据性能调优的本质

编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论做什么类型的编程,最终思考的都是硬件方面的问题!最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行的,并且基于此进行算法实现和性能调优,最后都是回到了硬件!

在大数据性能的调优,它的本质是硬件的调优!即基于 CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互) 基础上构建算法和性能调优!我们在计算的时候,数据肯定是存储在内存中的。磁盘IO怎么去处理和网络IO怎么去优化。

Spark 性能调优要点分析

在大数据性能本质的思路上,我们应该需要在那些方面进行调优呢?以下是

  • 并行度
  • 压缩
  • 序例化
  • 数据倾斜
  • JVM调优 (例如 JVM 数据结构化优化)
  • 内存调优
  • Task性能调优 (例如包含 Mapper 和 Reducer 两种类型的 Task)
  • Shuffle 网络调优 (例如小文件合并)
  • RDD 算子调优 (例如 RDD 复用、自定义 RDD)
  • 数据本地性
  • 容错调优
  • 参数调优

大数据最怕的就是数据本地性(内存中)和数据倾斜或者叫数据分布不均衡、数据转输,这个是所有分布式系纪的问题!数据倾斜其实是跟你的业务紧密相关的。所以调优 Spark 的重点一定是在数据本地性和数据倾斜入手。

  • 资源分配和使用:你能够申请多少资源以及如何最优化的使用计算资源
  • 关发调优:如何基于 Spark 框架内核原理和运行机制最优化的实现代码功能
  • Shuffle调优:分布式系统必然面临的杀手级别的问题
  • 数据倾斜:分布式系统业务本身有数据倾斜

Spark 资源使用原理流程

这是一张来至于官方的经典资源使用流程图,这里有三大组件,第一部份是 Driver 部份,第二就是具体处理数据的部份,第三就是资源管理部份。这一张图中间有一个过程,这表示在程序运行之前向资源管理器申请资源。在实际生产环境中,Cluster Manager 一般都是 Yarn 的 ResourceManager,Driver 会向 ResourceManager 申请计算资源(一般情况下都是在发生计算之前一次性进行申请请求),分配的计算资源就是 CPU Core 和 Memory,我们具体的 Job 里的 Task 就是基于这些分配的内存和 Cores 构建的线程池来运行 Tasks 的。

当然在 Task 运行的过程中会大量的消耗内存,而Task又分为 Mapper 和 Reducer 两种不同类型的 Task,也就是 ShuffleMapTask 和 ResultTask 两种类型,这类有一个很关建的调优点就是如何对内存进行使用。在一个 Task 运行的时候,默应会占用 Executor 总内存的 20%,Shuffle 拉取数据和进行聚合操作等占用了 20% 的内存,剩下的大概有 60% 是用于 RDD 持久化 (例如 cache 数据到内存),Task 在运行时候是跑在 Core 上的,比较理想的是有足够的 Core 同时数据分布比较均匀,这个时候往往能够充分利用集群的资源。

核心调优参数如下:

num-executors
executor-memory
executor-cores
driver-memory
spark.default.parallelizm
spark.storage.memoryFraction
spark.shuffle.memoryFraction
  • num-executors:该参数一定会被设置,Yarn 会按照 Driver 的申请去最终为当前的 Application 生产指定个数的 Executors,实际生产环境下应该分配80个左右 Executors 会比较合适呢。
  • executor-memory:这个定义了每个 Executor 的内存,它与 JVM OOM 紧密相关,很多时候甚至决定了 Spark 运行的性能。实际生产环境下建义是 8G 左右,很多时候 Spark 运行在 Yarn 上,内存占用量不要超过 Yarn 的内存资源的 50%。
  • executor-cores:决定了在 Executors 中能够并行执行的 Tasks 的个数。实际生产环境下应该分配4个左右,一般情况下不要超过 Yarn 队列中 Cores 总数量的 50%。
  • driver-memory:默应是 1G
  • spark.default.parallelizm:并行度问题,如果不设置这个参数,Spark 会跟据 HDFS 中 Block 的个数去设置这一个数量,原理是默应每个 Block 会对应一个 Task,默应情况下,如果数据量不是太多就不可以充份利用 executor 设置的资源,就会浪费了资源。建义设置为 100个,最好 700个左右。Spark官方的建义是每一个 Core 负责 2-3 个 Task。
  • spark.storage.memoryFraction:默应占用 60%,如果计算比较依赖于历史数据则可以调高该参数,当如果计算比较依赖 Shuffle 的话则需要降低该比例。
  • spark.shuffle.memoryFraction:默应占用 20%,如果计算比较依赖 Shuffle 的话则需要调高该比例。

Spark 更高性能的算子

Shuffle 分开两部份,一个是 Mapper 端的Shuffle,另外一个就是 Reducer端的 Shuffle,性能调优有一个很重要的总结就是尽量不使用 Shuffle 类的算子,我们能避免就尽量避免,因为一般进行 Shuffle 的时候,它会把集群中多个节点上的同一个 Key 汇聚在同一个节点上,例如 reduceByKey。然后会优先把结果数据放在内存中,但如果内存不够的话会放到磁盘上。Shuffle 在进行数据抓取之前,为了整个集群的稳定性,它的 Mapper 端会把数据写到本地文件系统。这可能会导致大量磁盘文件的操作。如何避免Shuffle可以考虑以下:

  1. 采用 Map 端的 Join (RDD1 + RDD2 )先把一个 RDD1的数据收集过来,然后再通过 sc.broadcast( ) 把数据广播到 Executor 上;
  2. 如果无法避免Shuffle,退而求其次就是需要更多的机器参与 Shuffle 的过程,这个时候就需要充份地利用 Mapper 端和 Reducer 端机制的计算资源,尽量使用 Mapper 端的 Aggregrate 功能,e.g. aggregrateByKey 操作。相对于 groupByKey而言,更倾向于使用 reduceByKey( )aggregrateByKey( ) 来取代 groupByKey,因为 groupByKey 不会进行 Mapper 端的操作,aggregrateByKey 可以给予更多的控制。
  3. 如果一批一批地处理数据来说,可以使用 mapPartitions( ),但这个算子有可能会出现 OOM 机会,它会进行 JVM 的 GC 操作!
  4. 如果进行批量插入数据到数据库的话,建义采用foreachPartition( ) 。
  5. 因为我们不希望有太多的数据碎片,所以能批量处理就尽量批量处理,你可以调用 coalesce( ) ,把一个更多的并行度的分片变得更少,假设有一万个数据分片,想把它变得一百个,就可以使用 coalesce( )方法,一般在 filter( ) 算子之后就会用 coalesce( ),这样可以节省资源。
  6. 官方建义使用 repartitionAndSortWithPartitions( )
  7. 数据进行复用时一般都会进行持久化 persisit( )
  8. 建义使用 mapPartitionWithIndex( )
  9. 也建义使用 tree 开头的算子,比如说 treeReduce( )treeAggregrate( )

总结

大数据必然要思考的核心性能问题不外乎 CPU 计算、内存管理、磁盘和网络IO操作,这是无可避免的,但是可以基于这个基础上进行优化,思考如何最优化的使用计算资源,思考如何在优化代码,在代码层面上防避坠入性能弱点;思考如何减少网络传输和思考如何最大程度的实现数据分布均衡。

在资源管理调优方面可以设置一些参数,比如num-executors、executor-memory、executor-cores、driver-memory、spark.default.parallelizm、spark.storage.memoryFraction、spark.shuffle.memoryFraction

Shuffle 的第一阶段即Mapper端在默应情况下会写到本地,而reducer通过网络抓取的同一个 Key 在不同节点上都把它抓取过来,内存可能不够,不够的话就写到磁盘中,这可能会导致大量磁盘文件的操作。在实际编程的时候,可以用一些比较高效的RDD算子,例如 reduceByKey、aggregrateByKey、coalesce、foreachPartition、repartitionAndSortWithPartitions。

参考资料

资料来源来至 DT大数据梦工厂 大数据商业案例以及性能调优

第20课:大数据性能调优的本质和Spark性能调优要点分析

第21课:Spark性能调优之系统资源使用原理和调优最佳实践

第22课:Spark性能调优之使用更高性能算子及其源码剖析

时间: 2024-08-03 18:21:17

[大数据性能调优] 第一章:性能调优的本质、Spark资源使用原理和调优要点分析的相关文章

CentOS6安装大数据软件Apache版本 第一章:各个软件版本介绍

1. 软件的版本选择 在大数据领域,我们使用的版本一般有2个选择,一个是官方发布的版本,大多数为Apache发布的版本(一般为免费的),另一个是由其他公司对官方版本进行集成的版本(一般是要收费的):收费版本一般选择CDH的版本,它对软件做了一些兼容性处理.如果使用CDH版本,请保证CDH版本一致,才能解决兼容性问题:如下图: apache版本:https://archive.apache.org/dist/ CDH版本:http://archive-primary.cloudera.com/cd

大数据就是这么任性第一季数据结构和算法(一线经验、权威资料、知识新鲜、实践性强、全程源码)

这门课程是针对大数据工程师和云计算工程师的基础课程,同时也是所有计算机专业人士必须掌握的一门课程. 如果不掌握数据结构和算法,你将难以掌握高效.专业的数据处理手段,更难以从容应对复杂的大数据处理场景. 请思考以下问题: 1.社交网站(如微博.facebook)中,人与人的关系是海量数据,你如何研究和处理此问题? 2.数据库的索引作用是什么?为什么利用哈希.B+树和堆表等数据结构来组织索引? 3.为什么Linux的虚拟内存管理模块,使用红黑树来处理VMA的查找? 4.为什么搜索引擎可以在毫秒级返回

Spark修炼之道(基础篇)——Linux大数据开发基础:第一节、Linux介绍、安装及使用初步

本节主要内容 Linux简史 Linux特点 Ubuntu Linux安装 Linux使用初步 1. Linux简史 要讲述大名鼎鼎的Linux,必然要先从UNIX系统谈起,下面这幅图给出了Unix系统的进化图: 图片来源:http://baike.baidu.com/link?url=QfoqWtWGs-BjpnfEy_AUk7Bm3XHuf6JbN92HCOoUBfFfj8BuSDkbwmldtmUEmGRDUwqsQMIV4jCKHvdkSPr3Lq 从进化图中可以看到,目前所有的主流操作

王家林亲传《DT大数据梦工厂》第一讲Scala开发环境搭建和Hellworld解析

土豆视频:http://www.tudou.com/programs/view/99sazBunsHg/ 你想了解大数据,你想成为年薪百万吗?那你还等着什么,快点来吧!跟着王家林老师学习spark大数据 这一讲,王老师主讲了Scala环境的搭建 1.安装Java(建议安装java8),安装好后,设置环境变量(java_home.path.classpath这个环境变量) 2.安装Scala,下载地址:spark.apache.org(建议安装2.10.x以上版本),设置环境变量(scala_ho

Linux性能优化 第一章 性能追踪建议

1.1常用建议1.1.1记大量的笔记(记录所有的事情)在做性能调优问题的时候很重要的一个操作就是记录下所有的事情,包括每一个输出.执行的结果.可以新建一个文件夹,然后把结果的文件都塞到该文件夹内.包括如下: 记录硬件/软件的配置情况,比如dmesg和uname –a的输出 保存并组织性能结果,记录系统配置的同时也要保存测试的结果. 写下命令行调用,可以把复杂的命令写成script或者记录到终端上. 记录研究信息和URL,将互联网找到的相关信息记录下来.记录这些信息之外,在调查问题时,还要牢记以下

【大数据面试宝典】 第一篇 Hadoop 面试题

Hadoop常见的端口 Hadoop生态圈 Hadoop配置文件以及简单的Hadoop集群搭建 Hadoop参数调优 项目经验之基准测试 Hadoop宕机 Hadoop 高可用配置 Hadoop 常见的端口 ? dfs.namenode.http-address:50070 ? dfs.datanode.http-address:50075 ? SecondaryNameNode辅助名称节点端口号:50090 ? dfs.datanode.address:50010 ? fs.defaultFS

大数据开发Hadoop工程师-第一课 Java基本知识和JDK的安装配置

Java概述 Java的版本 Java为消费类智能电子产品而设计,但智能家电产品并没有像最初想象的那样拥有大的发展.跨平台是Java语言的核心优势,赶上最初互联网的发展,并随着互联网的发展而发展,建立了强大的生态体系,目前已经覆盖IT各行业的"第一大语言",是计算机界的"英语". JavaSE(J2SE)(Java2 Platform Standard Edition)(Java平台标准版) 标准版,定位在个人计算机上的应用.这个版本是Java平台的核心,主要用于桌

大数据之ES系列——第一篇 ElasticSearch2.2 集群安装部署

第一部分  安装准备 准备三台主机节点: hc11.spads  192.168.160.181 hc12.spads  192.168.160.182 hc13.spads  192.168.160.183 准备软件包: elasticsearch-2.2.0.tar.gz 注:将以上软件包上传至各主机节点/opt/softwareRes/目录下. 第二部分 安装配置 elasticsearch-2.2.0 1.各主机节点分别解压软件包 elasticsearch-2.2.0.tar.gz t

下载大数据就是这么任性第一季数据结构和算法(一线经验、权威资料、知识新鲜、实践性强、全程源码)

java语言实现,100多课下载地址:http://pan.baidu.com/s/1dFJUbp3现200转让了,联系QQ:380539674 一.简介第1讲:什么是数据结构?第2讲:什么是算法?二.线性表第3讲:线性表(数组.链表.队列.栈)第4讲:Linux work queue及JDK线程池三.树第5讲:非线性结构.树.二叉树第6讲:平衡树.AVL树第7讲:B+树与数据库索引四.图第8讲:图的概念与存储第9讲:图的遍历第10讲:最小生成树(MST).Prim算法.Kruskal算法第11