spark的部署方式

一直以为spark区分几种集群的模式是由配置更改而改变.

经过使用发现,区分这几种模式的在于启动命令时指定的master.

现在保持我的配置文件不变.

#公共配置
export SCALA_HOME=/usr/local/scala/
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.65.x86_64/
export SPARK_LOCAL_DIRS=/usr/local/spark-1.5.1/
export SPARK_CONF_DIR=$SPARK_LOCAL_DIRS/conf/
export SPARK_PID_DIR=$SPARK_LOCAL_DIRS/pid_file/

#YARN
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/

#standalone
#export SPARK_MASTER_IP=a01.dmp.ad.qa.vm.m6
#export SPARK_MASTER_PORT=7077
#每个Worker进程所需要的CPU核的数目
#export SPARK_WORKER_CORES=4
#每个Worker进程所需要的内存大小
#export SPARK_WORKER_MEMORY=6g
#每个Worker节点上运行Worker进程的数目
#export SPARK_WORKER_INSTANCES=1
#work执行任务使用本地磁盘的位置
#export SPARK_WORKER_DIR=$SPARK_LOCAL_DIRS/local
#web ui端口
export SPARK_MASTER_WEBUI_PORT=8099
#Spark History Server配置
export SPARK_HISTORY_OPTS="-Dspark.history.retainedApplications=20 -Dspark.history.fs.logDirectory=hdfs://a01.dmp.ad.qa.vm.m6:9000/user/spark/applicationHistory"

我们使用standalone的方式起了一个spark-shell

在命令行执行如下命令:

$ spark-shell --master spark://a01.dmp.ad.qa.vm.m6.youku:7077

先看spark UI页面

在spark ui的running Applicatioin中看到刚才启动的那个shell.

看hadoop 任务管理页面

没有运行中的任务.

使用spark on YARN的方式再起一个spark-shell

$ spark-shell --master yarn-client

再看刚才上面那2个页面.发现yarn的作业管理界面现在有一个running app,而spark作业管理页面是没有running app的.

至此,我知道了.我们常说的 #你的spark是装的standalone的么#,#你的spark是装的on yarn的么# 这种说法都是不正确的.

spark任务已什么方式提交,是看提交命令时指定的master,而非配置控制的

时间： 2024-09-30 16:02:36

spark的部署方式的相关文章

运维系列：02、Spark的部署方式

单机运行 Standalone 使用Spark本身提供的资源管理器,可以直接运行 Yarn 提供运行spark应用的jar包 Mesos 另一种资源管理系统 Amazon EC2 / ElasticMapReduce 安装工具: Chef

从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多. 从代码中,我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多,这里我来列举一下: 1.local:这种方式是在本地启动一个线程来运行作业: 2.local[N]:也是本地模式,但是启动了N个线程: 3.local[*]:还是本地模式,但是用了系统中所有的核: 4.local[N

Apache Spark探秘：三种分布式部署方式比较

目前Apache Spark支持三种分布式部署方式,分别是standalone.spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配).本文将介绍这三种部署方式,并比

Apache Spark源码走读之7 -- Standalone部署方式分析

欢迎转载,转载请注明出处,徽沪一郎. 楔子在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细的分析,本文就这些问题做一个比较详细的分析,并且对在standalone模式下如何实现HA进行讲解. 没有HA的Standalone运行模式先从比较简单的说起,所谓的没有ha是指master节点没有ha. 组成cluster的两大元素即Master和Worker.slave worker可以有1到

01-spark简介、spark部署方式、spark运行方式

1.定义 Spark是由Scala编写的一个实时计算系统. Spark的API包括Java.Python.R.Scala. 2.功能 Spark Core: ①将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度.RPC.序列化和压缩,并为运行在其上的上层组件提供API. ②是Spark核心编程,类似Hadoop中的MR编程框架,但比MR拥有更丰富的算子,且几乎所有对数据的处理都放置在内存中,所以比MR更高效. Spark SQL: 类似Hive,但是Spark的SQL可以和Spar

Spark（六）Spark任务提交方式和执行流程

一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等.程序执行完毕后关闭SparkContext (3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上.在Spark on Yarn模式下,其进程名称为 Coar

【待补充】Spark 集群模式 && Spark Job 部署模式

0. 说明 Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式 [ Local ] 使用一个 JVM 模拟 Spark 集群 [ Standalone ] 启动 master + worker 进程 [ mesos ] -- [ Yarn ] -- 2. Spark Job 部署模式 [ Client ] Driver 程序运行在 Client 端. [ Cluster ] Driver 程序运行在某个 worker 上. spark-shell 只能以

【原创】大叔经验分享（23）hive metastore的几种部署方式

hive及其他组件(比如spark.impala等)都会依赖hive metastore,依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/,创建数据库或表时会在该目录下创建对应的目录 javax.jdo.option.ConnectionURLjavax.jdo.option.ConnectionDriverNamejavax.jdo.o

python web服务常见的部署方式

引自 - 全面解读python web 程序的9种部署方式 python有很多web 开发框架,代码写完了,部署上线是个大事,通常来说,web应用一般是三层结构 web server ---->application -----> DB server 主流的web server 一个巴掌就能数出来,apache,lighttpd,nginx,iis application,中文名叫做应用服务,就是你基于某个web framework写的应用代码 DB server 泛指存储服务,web开发中用