spark编译与onyarn的运行

Spark on yarn执行流程源代码分析

目前的分析主要基于spark0.9.0的cdh5的版本进行分析，

源代码下载地址：https://github.com/cloudera/spark.git

下载方式：gitclone url ./spark

进入spark目录，执行gitcheckout
cdh5-0.9.0_5.0.0

源代码编译

使用sbt编译spark

运行sbt命令需要使用http代理，不然连接不上网络，进入sbt/目录，使用vimsbt修改里面的内容，

在最下面java命令的第二行添加-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port
\

运行如下命令编译spark

SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly

SPARK_HADOOP_VERSION后是hadoop的版本号，

SPARK_HADOOP_VERSION=2.2.0sbt/sbt assembly

Inaddition, if you wish to run Spark on YARN,set SPARK_YARN to true:

SPARK_HADOOP_VERSION=2.0.5-alphaSPARK_YARN=true sbt/sbt assembly

http连接代理设置：

编辑spark_home/sbt/sbt文件，在文件最后的如下脚本部分：

printf"Launching sbt from ${JAR}\n"

java\

-Xmx1200m-XX:MaxPermSize=350m -XX:ReservedCodeCacheSize=256m \

-jar${JAR} \

"[email protected]"

修改为

printf"Launching sbt from ${JAR}\n"

java\

-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port \

-Xmx1200m-XX:MaxPermSize=350m -XX:ReservedCodeCacheSize=256m \

-jar${JAR} \

"[email protected]"

通过如下命令通过sbt对spark进行编译

SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly

sbt命令请参考http://www.scala-sbt.org/release/docs/Getting-Started/Running.html#common-commands

生成tar包

在spark_home的根目录下，执行如下命令，编译spark的分布式部署tar.gz包

修改make-distribution.sh文件，

在如下命令后

Makedirectories

rm-rf "$DISTDIR"

mkdir-p "$DISTDIR/jars"

echo"Spark $VERSION built for Hadoop $SPARK_HADOOP_VERSION" >"$DISTDIR/RELEASE"

#Copy jars

cp$FWDIR/assembly/target/scala*/*assembly*hadoop*.jar "$DISTDIR/jars/"

添加此信息，把examples添加到tar.gz包中(测试过程可以执行此操作,把示例的代码一起打包起来)。

#Make directories

mkdir-p "$DISTDIR/examples"

#Copy jars

cp$FWDIR/examples/target/scala*/*examples*assembly*.jar"$DISTDIR/examples/"

./make-distribution.sh--hadoop
2.3.0-cdh5.0.0--with-yarn --tgz

命令执行完成后，在spark_home下会生成一个tar.gz包，spark-0.9.0-hadoop_2.3.0-cdh5.0.0-bin.tar.gz

通过Yarn运行spark示例程序

通过export命令设置yarn的conf环境变量，如果没有配置全局的yarnconf环境变量

exportYARN_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

exportSPARK_JAR=<spark_home>/jars/spark-assembly-0.9.0-incubating-hadoop2.0.0-cdh4.3.0.jar

exportYARN_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

exportHADOOP_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

SPARK_JAR=/home/hadoop/test.spark.yang/spark-0.9.0-incubating/jars/spark-assembly-0.9.0-incubating-hadoop2.0.0-cdh4.3.0.jar

./bin/spark-classorg.apache.spark.deploy.yarn.Client \

--jar./examples/spark-examples-assembly-0.9.0-incubating.jar \

--classorg.apache.spark.examples.SparkTC \

--argsyarn-standalone \

--num-workers3 \

--worker-cores1 \

--master-memory512M \

--worker-memory1g

通过java程序执行sparkon yarn的启动

1.编写一个java应用程序,把core-site/hdfs-site/yarn-site的配置文件添加到工程中。

2.把spark的jar添加到工程中，作用于当前工程的class引用,

3.在工程中设置环境变量SPARK_JAR,来引用sparkjar的位置,

4.在工程中设置环境变量SPARK_LOG4J_CONF,来引用sparklog4j的位置

通过SPARK_YARN_USER_ENV配置其它用户定义的环境变量值。

通过SPARK_USE_CONC_INCR_GC配置是否使用默认的GC配置。,true/false

通过SPARK_JAVA_OPTS配置spark执行时的相关JAVA_OPTS.

通过JAVA_HOME配置java_home.

5.设置一些系统属性，共spark运行时的使用，当然这些个系统属性本身也有默认的值

a.属性名称QUEUE，默认值default。作用于am启动的队列名称,也可以在client调用进传入

b.属性名称spark.yarn.report.interval，默认值1000。app运行监控的间隔时间ms。

c.属性名称spark.yarn.submit.file.replication，默认值3。上传给yarn上运行的资源的复制份数，包括sparkjar,appjar

d.属性名称spark.yarn.max.worker.failures，默认值3或numworker传入参数的值*2取最大值。

作用于app失败的重试次数,如果重试次数超过了指定的值，表示app运行失败。

e.属性名称spark.yarn.applicationMaster.waitTries，默认值10。等待SparkContext初始化完成的等待次数，

每次的等待时，让ApplicationMaster.sparkContextRef.wait=10000ms

f.属性名称spark.yarn.scheduler.heartbeat.interval-ms，默认值5000，

通过此配置向RM设置am向其报告的时间间隔。

时间： 2024-10-05 08:26:00

spark编译与onyarn的运行的相关文章

Spark编译安装和运行

一.环境说明 Mac OSX 10.10.3 Java 1.7.0_71 Spark 1.4.0 二.编译安装 tar -zxvf spark-1.4.0.tgz cd spark-1.4.0 ./sbt/sbt assembly ps:如果之前执行过编译,需要执行 ./sbt/sbt clean 清理后才能重新编译. 三.运行 adeMacBook-Pro:spark-1.4.0 apple$ ./bin/spark-shell log4j:WARN No appenders could b

Spark编译与部署

Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建 [注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建.Hadoop编译安装和Spark编译安装,该环境作为后续实验基础: 3.文章演示了Hadoop.Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些

Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包.SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1.时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2.maven下载大文件是多线程进行,而SBT是

Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建

[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建.Hadoop编译安装和Spark编译安装,该环境作为后续实验基础: 3.文章演示了Hadoop.Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些编译好的安装包进行部署. 1.运行环境说明 1.1 硬软件环境 l 主机

在Mac OS X上用自己编译出的CoreCLR运行.NET程序

当昨天被Mac OS X上无法编译CoreCLR的问题困扰时(详见Mac OS X上尝试编译CoreCLR源代码),后来发现这个难题竟然被神人@kangaroo给解决了,连CoreCLR的微软开发人员也大吃一惊(详见#105). @kangaroo This is awesome! Thank you so much for doing it! I’ll start reviewing it in the morning. 今天发现,@kangaroo修改后可在OS X上编译的版本已被合并到Co

ios-（2）第一个C语言程序(理解编译、连接、运行)

一.开发工具的选择 1. 可以用来写代码的工具:记事本.ULtraEdit.Vim.Xcode等. 2. 选择XCode的原因:苹果公司官方提供的开发利器.简化开发的工程.有高亮显示功能. 3. 使用XCode新建一个C程序的源代码文件(扩展名为.c或者.C) # 开发XCode # 新建文件 # 选择文件类型 .c 二.代码编写 1.程序结构 * C程序的结构:由函数组成 # 任何一个C语言程序都市有一个或者多个程序段(小程序)构成的,每个程序段都有自己的功能,我们一般称这些程序段为"函数&q

java继承：编译与运行的关系（编译看左边，运行看右边）

“成员变量,静态方法看左边:非静态方法:编译看左边,运行看右边.” 意思是:当父类变量引用子类对象时(Fu f = new Zi();),在这个引用变量f指向的对象中,他的成员变量和静态方法与父类是一致的,他的非静态方法,在编译时是与父类一致的,运行时却与子类一致(发生了复写). 例: class Fu { intnum = 5; static void method4() { System.out.println("fu method_4"); } void method3() {

linux下安装codeblocks及写完程序之后编译成功但无法运行的原因

一:在软件中心输入codeblocks,然后点击安装,等着装完就行了. 再按ctrl+alt+t 打开终端输入 sudo apt-get install gcc 而后再输入sudo apt-get install g++ 最后打开codeblocks写个 helloworld 试试吧. 二:helloworld小程序写完后,也编译通过了,但是却无法运行,那么你再看看保存的地方吧,要是不是保存在linux下的文档了,而是保存在磁盘里的话就是造成不能运行的结果了,更改保存位置试试看呗. 以上仅是我

Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

[注]该系列文章以及使用到安装包/測试数据能够在<[倾情大奉送–Spark入门实战系列] (http://blog.csdn.net/yirenboy/article/details/47291765)>获取 1 编译Hadooop 1.1 搭建好开发环境 1.1.1 安装并设置maven 1.下载maven安装包.建议安装3.0以上版本号,本次安装选择的是maven3.0.5的二进制包,下载地址例如以下 http://mirror.bit.edu.cn/apache/maven/maven