Spark的运行模式(1)--Local和Standalone

Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。

1. Local

Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行。这也是部署、设置最简单的一种模式

2. Standalone

Standalone是Spark自身实现的资源调度框架。如果我们只使用Spark进行大数据计算,不使用其他的计算框架(如MapReduce或者Storm)时,就采用Standalone模式。

Standalone模式的部署比较繁琐,需要把Spark的部署包安装到每一台节点机器上,并且部署的目录也必须相同,而且需要Master节点和其他节点实现SSH无密码登录。启动时,需要先启动Spark的Master和Slave节点。

其中master:7077是Spark的Master节点的主机名和端口号。

时间: 2024-08-05 18:40:47

Spark的运行模式(1)--Local和Standalone的相关文章

Spark多种运行模式

1,测试或实验性质的本地运行模式 (单机) 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题. 其中N代表可以使用N个线程,每个线程拥有一个core.如果不指定N,则默认是1个线程(该线程有1个core). 如果是local[*],则代表 Run Spark locally with as many worker threads as logical cores on your machine. 如下: spark-s

Spark各运行模式详解

一.测试或实验性质的本地运行模式 (单机) 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题. 其中N代表可以使用N个线程,每个线程拥有一个core.如果不指定N,则默认是1个线程(该线程有1个core). ? ? 指令示例: ? ? 1)spark-shell --master local 效果是一样的 2)spark-shell --master local[4] 代表会有4个线程(每个线程一个core)来并发执行

Spark的运行模式(2)--Yarn-Cluster

3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架.Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上.采用Spark on Yarn模式,只需要在一个节点部署Spark就行了,因此部署比较简单. 先介绍一下Yarn-Cluster. 首先把spark-assembly-1.6.0-hadoop2.6.0.jar上传到HDFS. 由于Ya

【Nutch基础教程之七】Nutch的2种运行模式:local及deploy

在对nutch源代码运行ant runtime后,会创建一个runtime的目录,在runtime目录下有deploy和local 2个目录. [[email protected] runtime]$ ls deploy  local 这2个目录分别代表nutch的2种运行方式:部署模式及本地模式. 以下以inject为例,示范2种运行模式. 一.本地模式 1.基本用法: $ bin/nutch inject Usage: InjectorJob <url_dir> [-crawlId <

spark内部运行模式

概述Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage. Stage有两种: ShuffleMapStage这种Stage是以Shuffle为输出边界其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出其输出可以是另一个Stage的开始ShuffleMapStage的最后Task就是ShuffleMapTask在一个Job里可能有该类型的Stage,也可以能

spark本地运行模式

Spark设置setMaster=local,不提交集群,在本地启用多线程模拟运行 object SparkUtil {      private val logger = Logger.getLogger(getClass.getName, true)      def getSparkContext(appName:String, local:Boolean=false, threadNum:Int=4):SparkContext = {            val conf = new 

spark运行模式

Spark有以下四种运行模式: local:本地单进程模式,用于本地开发测试Spark代码; standalone:分布式集群模式,Master-Worker架构,Master负责调度,Worker负责具体Task的执行; on yarn/mesos:运行在yarn/mesos等资源管理框架之上,yarn/mesos提供资源管理,spark提供计算调度,并可与其他计算框架(如MapReduce/MPI/Storm)共同运行在同一个集群之上; on cloud(EC2):运行在AWS的EC2之上

Spark internal - 多样化的运行模式(上)

Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行.而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn ,也可以使用Spark自带的Standalone Deploy模式 Spark处于活跃的开发过程中,代码变动频繁,所以本文尽量不涉及具体的代码分析,仅从结构和流程的角度进行阐述. 运行模式列表 基本上,Spark的运行模式取决于传递给SparkContext的MASTER环境变量的值,个别模式还需要辅

(2)spark运行模式

spark运行模式 下面我们来看一下spark的运行模式,根据上一篇博客我们知道spark的运行模式分为以下几种:local.standalone.hadoop yarn.我们说本地开发最好用local模式,直接搭建一个spark环境就可以跑了,因为测试的话本地是最方便的.standalone,用的比较少.hadoop yarn,这个是用的最多的,用spark的公司至少有70%是用yarn这个模式的.yarn是一个资源管理器,我们后面会说.下面我们就来讲解这几种运行模式. local运行模式 这