spark基于yarn的两种提交模式

一、spark的三种提交模式

1、第一种,Spark内核架构,即standalone模式,基于Spark自己的Master-Worker集群。

2、第二种,基于YARN的yarn-cluster模式。

3、第三种,基于YARN的yarn-client模式。

如果,你要切换到第二种和第三种模式,在提交spark应用程序的spark-submit脚本加上--master参数,设置为yarn-cluster,或yarn-client,即可。如果没设置,那么,就是standalone模式。

一、基于YARN的yarn-client模式

二、基于YARN的yarn-cluster模式

 三、yarn-cluster和yarn-client区别

1, yarn-client用于测试,因为,driver运行在本地客户端,负责调度application ,会与yarn集群产生超大量的网络通信,从而导致网卡流星激增,可能会被SA (运维)给警告。优点是,直接执行时,本地可以看到所有的log,方便调试.

2, yarn-cluster ,用于生产环境,因为driver运行在nodemanager ,没有网卡流星激增的问题。缺点在于,调试不方便,本地用spark-submit堤交后,看不到log,只能通过yarn applicaition-logs application_id这种命令来查看,麻烦

如果spark不依托于yarn,或者就是搭建一个spark集群,底层基于hdfs、hive大数据操作,或者hadoop版本低,没有yarn,就用standalone模式即可,

建议,做成分布式,提交应用的机器做成分布式(多几台),在实际提交的时候能够负载均衡,在不同的机器上面去提交,避免单台机器网卡流量激增问题,

原文地址:https://www.cnblogs.com/suwy/p/9510939.html

时间: 2024-08-28 20:36:16

spark基于yarn的两种提交模式的相关文章

spark on yarn的两种提交方式

和yarn-cluster模式一样,整个程序也是通过spark-submit脚本提交的.但是yarn-client作业程序的运行不需要通过Client类来封装启动,而是直接通过反射机制调用作业的main函数.下面就来分析: 1.通过SparkSubmit类的launch的函数直接调用作业的main函数(通过反射机制实现),如果是集群模式就会调用Client的main函数. 2.而应用程序的main函数一定都有个SparkContent,并对其进行初始化: 3.在SparkContent初始化中将

Spark on yarn的两种模式 yarn-cluster 和 yarn-client

从深层次的含义讲,yarn-cluster和yarn-client模式的区别其实就是Application Master进程的区别,yarn-cluster模式下,driver运行在AM(Application Master)中,它负责向YARN申请资源,并监督作业的运行状况.当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行.然而yarn-cluster模式不适合运行交互类型的作业.而yarn-client模式下,Application Master仅仅向YARN请求ex

Spark on YARN两种运行模式介绍

本文出自:Spark on YARN两种运行模式介绍http://www.aboutyun.com/thread-12294-1-1.html(出处: about云开发)   问题导读 1.Spark在YARN中有几种模式? 2.Yarn Cluster模式,Driver程序在YARN中运行,应用的运行结果在什么地方可以查看? 3.由client向ResourceManager提交请求,并上传jar到HDFS上包含哪些步骤? 4.传递给app的参数应该通过什么来指定? 5.什么模式下最后将结果输

flink on yarn模式下两种提交job方式

flink on yarn模式下两种提交job方式 https://juejin.im/post/5bf8dd7a51882507e94b8b15 https://www.cnblogs.com/asker009/p/11327533.html https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/deployment/yarn_setup.html#flink-yarn-session 原文地址:https://www.

Spark两种提交方式Yarn-client and Yarn-cluster

Spark支持三种集群部署方式(Standalone,Mesos,Yarn),其中Master服务(Spark Standalone,Mesos Master,Yarn ResourceManager)决定哪些应用可以运行,在那个节点上运行,以及什么时候运行.Slave服务(Yarn NodeManager)运行在每个节点上,节点控制着Executor进程,同时监控作业的运行状态以及资源的消耗.Spark运行在Yarn上,有两种模式,Yarn-Client和Yarn-Cluster.通常情况下,

Hadoop之MapReduce的两种任务模式

MapReduce按照任务大小和设置的不同,提供了两种任务模式: 客户端通过org.apache.hadoop.mapreduce.protocol.ClientProtocol与服务端通信,ClientProtocol的继承关系: 老一些的版本还有一个JobTracker的实现类,即:classic.用于和MapReduce1.X兼容用的,高一些的版本已经没有这个实现类了. 一,本地模式(LocalJobRunner实现) mapreduce.framework.name设置为local,则不

JAVA学习篇--JAVA的两种编程模式对比

在Drp项目中,讲解了两种编程模式Model 1和Model2,下面是对这两种模式的简单理解,以及由于Model2是基于MVC架构的模式,就将我们易混淆的MVC与我们之前学的三层架构进行对比学习一下. Model1 所谓Model1就是JSP大行其道的时代,在Model1模式下,整个Web应用几乎全部由JSP页面组成,JSP页面接收处理客户端请求,对请求处理后直接做出响应.用少量的JavaBean来处理数据库连接.数据库访问等操作. 代码示例:修改用户信息 主页面的js跳转: function

go--->共享内存和通信两种并发模式原理探究

共享内存和通信两种并发模式原理探究 并发理解 人类发明计算机编程的本质目的是为了什么呢?毫无疑问是为了解决人类社会中的各种负责业务场景问题.ok,有了这个出发点,那么想象一下,比如你既可以一心一意只做一件事,你也可以同时做多件事,比如,你计划今天上午计划就是看足球比赛,ok,你今天的工作就是串行的,单进程的,你只需要完成一件事.但是不巧呢,你妈妈说让你帮她切肉,你妈妈上午要出门有点事,同时不巧呢,你老婆说她上午也要出门,让你帮着打扫家里卫生,这时你今天就要同时做三件事,看比赛,切肉,打扫卫生.这

Apache 两种工作模式 :prefork 、 worker

前言 1·最近这几篇文章都在讲Apache的一些安全与优化,这些针对服务器都是很重要的,掌握这些不仅提升了服务器的安全,还让服务器的性能大大的提高.这样就可以让客户有很好的体验感.2·今天这篇文章依旧是讲Apache.但是,是讲Apache的优化深入.Apache 的默认配置保证基本运行服务,但是在实际生产环境中,有时候需要把服务器性能发挥到最大化. Apache的两种工作模式:(prefork.worker) 很多朋友都知道Apache是当下Web服务器用得最广泛也是最稳定的开源软件之一,其中