Spark中的资源调优

1.平常的资源使用情况

  

2.官网

  

3.资源参数调优

  cores

  memory

  JVM

4.具体参数  

  可以在--conf参数中给定资源配置相关信息(配置的一般是JVM的一些垃圾回收机制)
  --driver-memory

      MEM Memory for driver (e.g. 1000M, 2G) (Default: 1024M).

      给定driver运行的时候申请的内存,默认是1G
  --executor-memory

      MEM Memory per executor (e.g. 1000M, 2G) (Default: 1G).

      给定Executor运行的时候申请的内存,默认1G
  --driver-cores

       NUM Cores for driver (Default: 1).

       standalone的cluster运行模式下,driver运行需要的core数量
  --supervise

     If given, restarts the driver on failure.

       当运行在standalone上的时候如果driver宕机,会重启
  --total-executor-cores

     NUM Total cores for all executors.

     给定针对所有executor上总共申请多少个cores,默认全部
  --executor-cores

     NUM Number of cores per executor. (Default: 1 in YARN mode,or all available cores on the worker in standalone mode)

    Standalone模式下,每个executor分配多少cores,默认全部;

    以及yanr模式下,每个executor分配多少cores,默认1个
  --driver-cores

     NUM Number of cores used by the driver, only in cluster mode(Default: 1).

     yarn运行模式下(cluster),driver需要的cores数量,默认一个
  --num-executors

     NUM Number of executors to launch (Default: 2).

    yarn运行模式下总的executors数量

5.示例

1.命令

bin/spark-submit \
--master spark://linux-hadoop3.ibeifeng.com:6066 \
--deploy-mode cluster \
--class com.ibeifeng.bigdata.spark.core.TOPNSparkCore \
--conf "spark.ui.port=5050" \
--driver-memory 512M \
--supervise \
--executor-memory 1500M \
--total-executor-cores 1 \
--executor-cores 1 \
/etc/opt/datas/logs-analyzer.jar

2.运行

  

   

时间: 2024-12-06 21:28:52

Spark中的资源调优的相关文章

(转)WebSphere 中池资源调优 - 线程池、连接池和 ORB

WebSphere 中池资源调优 - 线程池.连接池和 ORB 来自:https://www.ibm.com/developerworks/cn/websphere/library/techarticles/1106_zhuxl_websphereenhancement/1106_zhuxl_websphereenhancement.html IBM WebSphere Application Server (以下简称 WAS)能支持的应用程序越来越多,而这些应用程序有各自的独特特性.需求和服务

在linux中使用sar调优系统性能

在linux中使用sar调优系统性能 关键字: sar sar默认在linux下没有安装,需要我们手工安装,一般建议源码方式安装,下载类似sysstat-6.1.3.tar.gz 然后configure make make install即可使用. sar 命令行的常用格式: sar [options] [-A] [-o file] t [n] 在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果

【原创 Hadoop&Spark 动手实践 8】Spark 应用经验、调优与动手实践

[原创 Hadoop&Spark 动手实践 7]Spark 应用经验.调优与动手实践 目标: 1. 了解Spark 应用经验与调优的理论与方法,如果遇到Spark调优的事情,有理论思考框架. 2. 把调优的过程,进行动手实践,完成一些调优的优化过程,加深理解. 3. 做一个完整的调优的案例,再次加深自己对Spark调优的理解.

Tomcat中常用的调优

在平时使用Apache.Nginx或者是其他的提供相关Web服务软件中都有相应的性能模块调优修改,而在Tomcat中也有相应的性能调优修改的配置,在这里就简单的说一说比较常用的几个Tomcat中的性能调优配置参数,在Tomcat中调优参数可以分为2个部分:1.在 Tomcat中的二进制文件夹bin目录下的catalina.sh或catalina.bat中添加修改配置tomcat使用运行参数:2.在Tomcat的conf文件夹中配置修改server.xml中的容器. 一.tomcat使用运行参数c

spark性能调优之资源调优

转https://tech.meituan.com/spark-tuning-basic.html spark作业原理 使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程.根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动.Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core.而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Stand

【转载】 Spark性能优化:资源调优篇

在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置.资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢:或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常.总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行.因此我们必须对Spark作业的资源使

Spark学习之路 (十二)SparkCore的调优之资源调优

摘抄自:https://tech.meituan.com/spark-tuning-basic.html 一.概述 在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置.资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢:或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常

spark shuffle参数及调优建议(转)

原文:http://www.cnblogs.com/arachis/p/Spark_Shuffle.html spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小.将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘. 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle

Spark 常用参数及调优

spark streaming 调优的几个角度: 高效地利用集群资源减少批数据的处理时间 设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度 内存调优