Spark记录-spark-submit学习

#查看帮助:./bin/spark-submit --help

用法1: spark-submit [options] <app jar | python file> [app arguments]
用法2: spark-submit --kill [submission ID] --master [spark://...]
用法3: spark-submit --status [submission ID] --master [spark://...]

选项:

--master          MASTER_URL            spark://host:port, mesos://host:port, yarn, or local.

-deploy-mode DEPLOY_MODE         Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cluster")  (Default: client).

--class            CLASS_NAME             Your application‘s main class (for Java / Scala apps).

--name            NAME                          A name of your application.

--jars               JARS                           Comma-separated list of local jars to include on the driver  and executor classpaths.

--packages                                         Comma-separated list of maven coordinates of jars to include on the driver and executor classpaths. Will search the local maven repo, then maven central and any additional remote repositories given by --repositories. The format for the coordinates should be groupId:artifactId:version.
--exclude-packages                            Comma-separated list of groupId:artifactId, to exclude while resolving the dependencies provided in --packages to avoid dependency conflicts.
--repositories                                      Comma-separated list of additional remote repositories to search for the maven coordinates given with --packages.
--py-files PY_FILES                            Comma-separated list of .zip, .egg, or .py files to place on the PYTHONPATH for Python apps.
--files FILES                                       Comma-separated list of files to be placed in the working  directory of each executor.

--conf PROP=VALUE                         Arbitrary Spark configuration property.
--properties-file                                   FILE Path to a file from which to load extra properties. If not  specified, this will look for conf/spark-defaults.conf.

--driver-memory MEM                         Memory for driver (e.g. 1000M, 2G) (Default: 1024M).
--driver-java-options                            Extra Java options to pass to the driver.
--driver-library-path                             Extra library path entries to pass to the driver.
--driver-class-path                               Extra class path entries to pass to the driver. Note that jars added with --jars are automatically included in the classpath.

--executor-memory MEM                    Memory per executor (e.g. 1000M, 2G) (Default: 1G).

--proxy-user NAME                             User to impersonate when submitting the application.

--help, -h                                             Show this help message and exit
--verbose, -v                                        Print additional debug output
--version,                                              Print the version of current Spark

Spark standalone with cluster deploy mode only:  --driver-cores NUM Cores for driver (Default: 1).

Spark standalone or Mesos with cluster deploy mode only:
--supervise If given, restarts the driver on failure.
--kill SUBMISSION_ID If given, kills the driver specified.
--status SUBMISSION_ID If given, requests the status of the driver specified.

Spark standalone and Mesos only:   --total-executor-cores NUM Total cores for all executors.

Spark standalone and YARN only:    --executor-cores NUM Number of cores per executor. (Default: 1 in YARN mode,or all available cores on the worker in standalone mode)

YARN-only:
--driver-cores NUM                   Number of cores used by the driver, only in cluster mode  (Default: 1).
--queue QUEUE_NAME          The YARN queue to submit to (Default: "default").
--num-executors NUM              Number of executors to launch (Default: 2).
--archives ARCHIVES              Comma separated list of archives to be extracted into the
working directory of each executor.
--principal PRINCIPAL              Principal to be used to login to KDC, while running on secure HDFS.
--keytab KEYTAB                     The full path to the file that contains the keytab for the principal specified above. This keytab will be copied to the node running the Application Master via the Secure Distributed Cache, for renewing the login tickets and the delegation tokens periodically.

./bin/spark-submit --class <main-class> --master <master-url> --deploy-mode <deploy-mode> --conf <key>=<value> ... # other options
<application-jar> [application-arguments]

一些常用的选项是:

  • --class:您的应用程序的入口(例如org.apache.spark.examples.SparkPi
  • --master:群集的主要URL(例如spark://23.195.26.187:7077
  • --deploy-mode:是否在工作节点(cluster)上或本地作为外部客户端部署驱动程序(client)(默认值:client?
  • --conf:key = value格式的任意Spark配置属性。对于包含空格的值,用引号括起“key = value”(如图所示)。
  • application-jar:包括您的应用程序和所有依赖项的捆绑jar的路径。URL必须在群集内全局可见,例如,所有节点上存在的hdfs://路径或file://路径。
  • application-arguments:传递给主类的主要方法的参数,如果有的话
# Run application locally on 8 cores
./bin/spark-submit   --class org.apache.spark.examples.SparkPi   --master local[8]   /path/to/examples.jar   100

# Run on a Spark standalone cluster in client deploy mode
./bin/spark-submit   --class org.apache.spark.examples.SparkPi   --master spark://207.184.161.138:7077   --executor-memory 20G   --total-executor-cores 100   /path/to/examples.jar   1000

# Run on a Spark standalone cluster in cluster deploy mode with supervise
./bin/spark-submit   --class org.apache.spark.examples.SparkPi   --master spark://207.184.161.138:7077   --deploy-mode cluster   --supervise   --executor-memory 20G   --total-executor-cores 100   /path/to/examples.jar   1000

# Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit   --class org.apache.spark.examples.SparkPi   --master yarn   --deploy-mode cluster \  # can be client for client mode
  --executor-memory 20G   --num-executors 50   /path/to/examples.jar   1000

# Run a Python application on a Spark standalone cluster
./bin/spark-submit   --master spark://207.184.161.138:7077   examples/src/main/python/pi.py   1000

# Run on a Mesos cluster in cluster deploy mode with supervise
./bin/spark-submit   --class org.apache.spark.examples.SparkPi   --master mesos://207.184.161.138:7077   --deploy-mode cluster   --supervise   --executor-memory 20G   --total-executor-cores 100   http://path/to/examples.jar   1000

主URL

传递给Spark的主URL可以采用以下格式之一:

主网址 含义
local 使用一个工作线程在本地运行Spark(即完全没有并行)。
local[K] 使用K工作线程本地运行Spark(理想情况下,将其设置为机器上的核心数)。
local[K,F] 使用K工作线程和F maxFailures在本地运行Spark(有关此变量的解释,请参阅spark.task.maxFailures
local[*] 使用与本机逻辑内核一样多的工作线程在本地运行Spark。
local[*,F] 使用与本机上的逻辑内核和F maxFailures一样多的工作线程在本地运行Spark。
spark://HOST:PORT 连接到给定的Spark独立群集主机。该端口必须是主设备配置使用的端口,默认为7077。
spark://HOST1:PORT1,HOST2:PORT2 使用Zookeeper连接到具有备用主站的给定Spark独立群集。该列表必须包含使用Zookeeper设置的高可用性群集中的所有主控主机。该端口必须是每个主设备配置使用的,默认为7077。
mesos://HOST:PORT 连接到给定的Mesos群集。端口必须是您配置使用的端口,默认为5050。或者,对于使用ZooKeeper的Mesos集群,请使用mesos://zk://...。要提交--deploy-mode cluster,主机:端口应配置为连接到MesosClusterDispatcher
yarn 连接到YARN群集 clientcluster模式取决于的值--deploy-mode。群集的位置将根据HADOOP_CONF_DIRYARN_CONF_DIR变量找到。

./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog.enabled=false --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

 
时间: 2024-10-04 22:11:31

Spark记录-spark-submit学习的相关文章

Spark记录-Spark性能优化解决方案

Spark性能优化的10大问题及其解决方案 问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,reduce数目设置为core数目的2到3倍.数量太大,造成很多小任务,增加启动任务的开销:数目太少,任务运行缓慢. 问题2:shuffle磁盘IO时间长解决方式:设置spark.local.dir为多个磁盘,并设置磁盘为IO速度快的磁盘,通过增加IO来优化shuffle性能: 问题3:map|red

Spark记录-Spark on Yarn框架

一.客户端进行操作 1.根据yarnConf来初始化yarnClient,并启动yarnClient2.创建客户端Application,并获取Application的ID,进一步判断集群中的资源是否满足executor和ApplicationMaster申请的资源,如果不满足则抛出IllegalArgumentException:3.设置资源.环境变量:其中包括了设置Application的Staging目录.准备本地资源(jar文件.log4j.properties).设置Applicati

Spark记录-spark报错Unable to load native-hadoop library for your platform

解决方案一: #cp $HADOOP_HOME/lib/native/libhadoop.so  $JAVA_HOME/jre/lib/amd64 #源码编译snappy---./configure  make & make install #cp libsnappy.so $JAVA_HOME/jre/lib/amd64 主要是jre目录下缺少了libhadoop.so和libsnappy.so两个文件.具体是,spark-shell依赖的是scala,scala依赖的是JAVA_HOME下的

Spark记录-Spark性能优化(开发、资源、数据、shuffle)

开发调优篇 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD:接着对这个RDD执行某个算子操作,然后得到下一个RDD:以此类推,循环往复,直到计算出最终我们需要的结果.在这个过程中,多个RDD会通过不同的算子操作(比如map.reduce等)串起来,这个"RDD串",就是RDD lineage,也就是"RDD的血缘关系链". 我们在开发过程中要注意:对于同一份数据,只应该

spark记录(9)SparkCore的调优之Spark内存模型

摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一.概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨.本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解

Spark随机森林实现学习

前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样.单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间.本文整理spark随机森林实现中的相关技巧,方便后面回顾. ? 随机森林算法概要 随机森林算法的详细实现和细节,可以参考论文Breiman 2001.这里简单说说大体思路,方便理解代码. 随机森林是一个组装(ensemble mod

spark记录(0)Spark初始

部分摘自:https://www.cnblogs.com/qingyunzong/p/8886338.html 1.什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点:但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写

【转】科普Spark,Spark是什么,如何使用Spark

本博文是转自如下链接,为了方便自己查阅学习和他人交流.感谢原博主的提供! http://www.aboutyun.com/thread-6849-1-1.html http://www.aboutyun.com/thread-6850-1-1.html 科普Spark,Spark核心是什么,如何使用Spark(1) 阅读本文章可以带着下面问题: 1.Spark基于什么算法的分布式计算(很简单) 2.Spark与MapReduce不同在什么地方 3.Spark为什么比Hadoop灵活 4.Spar

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD.DataFrame 与 DataSet0.3.2 DataSet 与 RDD 互操作0.3.3 RDD.DataFrame 与 DataSet 之间的转换0.3.4 用户自定义聚合函数(UDAF)0.3.5 开窗函数0.4 Spark Streaming0.4.1 Dst