spark的运行方式——转载

本文转载自:http://smallx.me/2016/06/07/%E8%BF%90%E8%A1%8Cspark%E7%A8%8B%E5%BA%8F%E7%9A%84%E6%96%B9%E5%BC%8F/

本文主要讲述运行spark程序的几种方式，包括：本地测试、提交到集群运行、交互式运行等。

在以下几种执行spark程序的方式中，都请注意master的设置，切记。

运行自带样例

可以用 run-example 执行spark自带样例程序，如下：

./bin/run-example org.apache.spark.examples.SparkPi

或者同样的：

run-example SparkPi

交互运行

可以用 spark-shell 以交互方式执行spark代码，这些操作都将由spark自动控制并以分布式处理的形式完成。首先，进入spark shell：

./bin/spark-shell

然后就可以直接执行spark代码了。spark-shell非常适合学习API，初学的话多在里面敲敲很好的。

Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到，则直接应用sc即可，否则用户自己再初始化，就会出现端口占用问题，相当于启动两个上下文。

在使用spark-shell时，可以通过 –driver-class-path 选项来指定所依赖的jar文件，多个jar文件之间使用分号”:”分割。

如果觉得spark-shell的日志过多而影响观看结果，可以配置一下日志参数，将conf目录下的log4j.properties.template复制一个并命名为log4j.properties，并修改其中的日志等级就ok了。

本地运行测试

如果你是在windows上开发spark程序，然后提交到linux运行。那么本地测试将会方便开发。
本地测试spark程序，需要将master设置为local[n]。同时注意：sc.textFile()可以加载本地文件而不一定是hdfs文件，这对于开发测试是非常方便的。
本地运行测试spark程序，既可以在IDE中进行，也可以手动在命令行中执行，参见我的linux下spark开发环境配置。

windows本地测试时，需要用到hadoop的一个东东（winutils.exe），否则会出现异常。使用方法是：新建一个文件夹 D:\hadoop\bin\ 并将 winutils.exe 放入其中，并保证winutils.exe双击运行没有报*.dll缺失的错误，然后 System.setProperty("hadoop.home.dir", "D:\\hadoop\\") 设置一下hadoop目录即可。

提交到集群

可以用 spark-submit 提交任务到集群执行，如下(这里我们指定了集群URL为spark standalone集群)：

spark-submit --class 应用程序的类名 --master spark://master:7077 --jars 依赖的库文件,多个包之间用逗号","分割 --executor-memory 2G --total-executor-cores 20 spark应用程序的jar包 你的应用程序需要的参数(即main方法的参数)

--master参数指定集群URL，可以是独立集群、YARN集群、Mesos集群，甚至是本地模式。见下表：

master可选值	描述
spark://host:port	spark standalone集群，默认端口为7077。
yarn	YARN集群，当在YARN上运行时，需设置环境变量HADOOP_CONF_DIR指向hadoop配置目录，以获取集群信息。
mesos://host:port	Mesos集群，默认端口为5050。
local	本地模式，使用1个核心。
local[n]	本地模式，使用n个核心。
local[*]	本地模式，使用尽可能多的核心。

如果jar包所需的依赖较少，通过--jars手动指定还可以，如果很多，最好使用构建工具打包。

需要注意的是，你的spark程序需要打包成jar包，spark-submit会将程序包分发到各个worker节点，同时这些上传到worker节点的文件，需要定时清理，否则会占用许多磁盘空间，如果运行于standalone模式，你可以设置 spark.worker.cleanup.appDataTtl 选项来让spark自动清理这些文件。

其实安装spark不需要安装scala，因为 spark-assembly-1.2.0-hadoop2.4.0.jar 中已经自带了scala库。spark/bin/compute-classpath.sh 会自动将spark自带的库文件(spark-assembly-1.2.0-hadoop2.4.0.jar等)添加到classpath中，因此即使classpath和你的spark应用程序中都没有指定spark库文件路径，你的spark应用程序照样可以执行。

时间： 2024-11-15 22:57:55

spark的运行方式——转载

运行自带样例

交互运行

本地运行测试

提交到集群

spark的运行方式——转载的相关文章

Project Tungsten：让Spark将硬件性能压榨到极限（转载）

spark集群与spark HA高可用快速部署 spark研习第一季

Spark入门（Python版）

Spark部署模式

_00022 Flume-1.5.0+Kafka_2.9.2-0.8.1.1+Storm-0.9.2 分布式环境整合

HBase - 计数器 - 计数器的介绍以及使用 | 那伊抹微笑

_00017 Kafka的体系结构介绍以及Kafka入门案例(初级案例+Java API的使用)

hadoop 2.7.2 和 spark1.6 多节点安装

_00023 Kafka 奇怪的操作_001它们的定义Encoder达到Class数据传输水平和决心