spark1.0属性配置以及spark-submit简单使用

在spark1.0中属性支持三种配置方式：

1、代码

在代码中构造SparkConf时指定master、appname或者key-value等

val conf = new SparkConf();
conf.setAppName("WordCount").setMaster(" spark://hadoop000:7077")
val sc = new SparkContext(conf)

val conf = new SparkConf();
conf.set("spark.executor.memory", "1g")
val sc = new SparkContext(conf)

2、命令行

在使用spark-submit或者spark-shell提交应用程序时，用命令行参数提交；

具体参数通过查看spark-submit --help 或者spark-shell --help得知；

spark-submit使用参见官方文档：http://spark.apache.org/docs/latest/submitting-applications.html

spark-submit --name SparkSubmit_Demo --class com.luogankun.spark.WordCount --master spark://hadoop000:7077 \
--executor-memory 1G --total-executor-cores 1 /home/spark/data/spark.jar hdfs://hadoop000:8020/hello.txt

注意：

1）此处虽然设置了name，但是如果在代码层面已经设置了setAppName("xxx")，那么此处的name是不生效的，因为代码层面设置参数的优先级大于命令行层面；

2）executor-memory是每个worker占用的，而executor-cores是所有worker一共占用；

3、配置文件

在spark1.0中使用conf/spark-defaults.conf配置文件设定，形如：

spark.master spark://hadoop000:7077
spark.local.dir /home/spark/spark_shuffle/    #配置spark shuffle数据存放路径
spark.executor.memory 1g

默认情况下spark-submit是会读取该配置文件，也可以通过参数设置读取其他配置文件，参见：spark-submit --properties-file

参数配置参见：http://spark.apache.org/docs/latest/configuration.html

注意三种属性设置的优先级：代码>命令行>配置文件

spark1.0属性配置以及spark-submit简单使用

时间： 2024-10-21 03:54:30

spark1.0属性配置以及spark-submit简单使用的相关文章

Spark1.0.0属性配置

1:Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置. 在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext: SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname使用setAppName: 也可以使用set()方法对属性进行键-值对配置,如set("spark.executor.memory&qu

spark-1.0.2配置lzo

export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/soft/hadoop/lzo/lib/export SPARK_CLASSPATH=$SPARK_CLASSPATH:/soft/server/spark-1.0.2-bin-hadoop2/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar /soft/hadoop/lzo/lib/路径下: liblzo2.a liblzo2.la liblzo2.so liblzo2.so

Spark 属性配置

1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置. 在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext: SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname使用setAppName: 也可以使用set()方法对属性进行键-值对配置,如set("spark.executor.memory&quo

Spark1.0.0 应用程序部署工具spark-submit

原文链接:http://blog.csdn.net/book_mmicky/article/details/25714545 随着Spark的应用越来越广泛,对支持多资源管理器应用程序部署工具的需求也越来越迫切.Spark1.0.0的出现,这个问题得到了逐步改善.从Spark1.0.0开始,Spark提供了一个容易上手的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在local.Standalone.YARN.Mesos上的快捷部署. 1:使用说明进入$SPARK

Spark1.0.0 history server 配置

在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录.Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history server可以将这些运行信息装载并以web的方式供用户浏览. 要使用history server,对于提交应用程

spark cdh5编译安装[spark-1.0.2 hadoop2.3.0 cdh5.1.0]

前提你得安装有Hadoop 我的版本hadoop2.3-cdh5.1.0 1.下载maven包 2.配置M2_HOME环境变量,配置maven 的bin目录到path路径 3.export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 4.到官方下载spark-1.0.2.gz压缩包.解压 5.进入spark解压包目录 6.执行./make-distribution.sh --hadoop

Spark1.0新特性-->Spark SQL

Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们进来看看吧,下面是它的官网的翻译. Spark SQL是支持在Spark中使用Sql.HiveSql.Scaca中的关系型查询表达式.它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数

asp.net core 简单部署之FTP配置(CentOS 7.0安装配置Vsftp服务器)

配置过程原文地址:http://www.osyunwei.com/archives/9006.html 坑和结果正确的跟着这个内容走,是靠谱的. 我自己给自己踩了个坑,请参照文章的朋友注意第七条:七.在/etc/pam.d/vsftpd的文件头部加入以下信息(在后面加入无效) 一些简单操作和命令,小白的我也是吃尽了苦头: cat:查看文件 cat /etc/vsftpd/virtusers vi:编辑文件 vi /etc/vsftpd/virtusers. 编辑文件需要注意,按键盘I是开始

Spark1.0.0部署指南

1 节点说明 IP Role 192.168.1.111 ActiveNameNode 192.168.1.112 StandbyNameNode,Master,Worker 192.168.1.113 DataNode,Master,Worker 192.168.1.114 DataNode,Worker HDFS集群和Spark集群之间节点共用. 2 安装HDFS 见HDFS2.X和Hive的安装部署文档:http://www.cnblogs.com/Scott007/p/3614960