Spark架构角色及基本运行流程

1. 集群角色

Application：基于spark的用户程序，包含了一个Driver program 和集群中多个Executor
Driver Program：运行application的main()函数并自动创建SparkContext。Driver program通过一个SparkContext对象来访问Spark，通常用SparkContext代表Driver。
SparkContext: Spark的主要入口点，代表对计算集群的一个连接，是整个应用的上下文，负责与ClusterManager通信，进行资源申请、任务的分配和监控等。
ClusterManager：在集群上获得资源的外部服务（spark standalone，mesos，yarm），Standalone模式：Spark原生的资源管理，由Master负责资源，YARN模式：Yarn中的ResourceManager
Worker Node：集群中任何可运行Application代码的节点，负责控制计算节点，启动Executor或者Driver（Standalone模式：Worder，Yarn模式：NodeManager）
Executor：为某个Application在worker node上执行任务的一个进程，该进程负责运行task并负责将数据存储在内存或者硬盘上，每个application都有自己独立的一组Executors。
RDD：弹性分布式数据集，是spark 的基本运算单元，通过scala集合转化读取数据集生成或者由其他RDD进过算子操作得到
Job：可以被拆分成Task并行计算的单元，一般为Spark Action触发的一次执行作业
Stage：每个Job会被拆分成很多组Task，每组任务被称为Stage，也可称TaskSet，该属于经常在日志中看到
Task：被送到executor上执行的工作单元

2. 基本运行流程

SparkContext的初始化过程中，Spark会分别创建DAGScheduler作业和TaskScheduler任务调度两级调度模块：

DAG Scheduler：根据作业（Job）构建基于Stage的DAG，并将DAG分解成Stage以TaskSets（任务组）的形式提交给任务调度模块Task Scheduler来具体执行
Task Scheduler：将任务（Task）分发给Executor执行

详细的流程为：

Application启动之后, 会在本地启动一个Driver进程，用于控制整个流程（假设我们使用的Standalone模式）；
初始化SparkContext，构建出DAGScheduler、TaskScheduler，以SparkContext为程序运行的总入口；
在初始化TaskSechduler的时候，它会向资源管理器（Standalone中是Master）注册Application，Master收到消息后使用资源调度算法在Spark集群的Worker上启动Executor并进行资源的分配，最后将Executor注册到TaskScheduler；
资源管理器分配Executor资源并启动StandaloneExecutorBackend，Executor运行情况将随着心跳发送到资源管理器上，到这里准备工作基本完成了；
根据我们编写的业务，如通过sc.textFile("file")加载数据源，将数据转化为RDD；
DAGScheduer 先按照Action将程序划分为一至多个job（每一个job对应一个DAG），之后DAGScheduer根据是否进行shuffer将job划分为多个Stage，每个Stage过程都是Taskset , DAG将Taskset交给TaskScheduler（由Work中的Executor去执行）
Executor向SparkContext申请Task；
Task Scheduler将Task发放给Executor运行，同时SparkContext将应用程序代码发放给Executor；
Task在Executor上运行，运行完毕释放所有资源。

原文地址：https://www.cnblogs.com/MWCloud/p/11404967.html

时间： 2024-08-28 07:48:39

Spark架构角色及基本运行流程的相关文章

【转】Spark架构与作业执行流程简介

原文链接 http://www.cnblogs.com/shenh062326/p/3658543.html Spark架构与作业执行流程简介 Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式). 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local 基于standalone的Spark架构与作业执行流程 Standalone模式下,集群启动时包括Master与Worker,其中Master负

Spark架构及运行机制

Spark是基于内存计算的大数据并行计算框架.因为其基于内存计算,较Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性.从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中.学习Spark就需要了解其架构及运行机制. Spark架构 Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点. master作为整个集群的控制

spark记录（5）Spark运行流程及在不同集群中的运行过程

摘自:https://www.cnblogs.com/qingyunzong/p/8945933.html 一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等.程序执行完毕后关闭SparkContext (3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运

Spark学习之路（七）Spark 运行流程

讨论QQ:1586558083 目录一.Spark中的基本概念二.Spark的运行流程 2.1 Spark的基本运行流程三.Spark在不同集群中的运行架构 3.1 Spark on Standalone运行过程 3.2 Spark on YARN运行过程正文回到顶部一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterManager通信,进行资

Spark学习之路（七）Spark 运行流程[转]

Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等.程序执行完毕后关闭SparkContext (3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上.在Spark on Yarn模式下,其进程名称为 Coarse

Struts 2的架构和运行流程

之前看书,笔记都是记录在云笔记上(因为实在太水,不好意思写blog).现在感觉还是应该写在blog上,写得比较水,而且有一些不懂的地方也希望大家可以帮忙看看.之后再慢慢把以前的笔记整理上来.里面有什么不对的,希望大家可以帮忙指正. 最近在看<研磨Struts 2>,看完了架构和运行流程,下面写一写自己的理解. Struts 2的架构 Struts 2的架构如下图(图从官网找的): 1. 橙色是Servlet Filters,过滤链,所有的请求都要经过Filter链的处理. 2. 浅蓝色是Str

Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL运行流程解析

1.整体运行流程使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程 // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // this is used to implicitly convert an RDD to a DataFrame. import sqlContext.implicits

分布式任务调度平台SIA-TASK的架构设计与运行流程

一.分布式任务调度的背景无论是互联网应用或者企业级应用,都充斥着大量的批处理任务.我们常常需要一些任务调度系统来帮助解决问题.随着微服务化架构的逐步演进,单体架构逐渐演变为分布式.微服务架构.在此背景下,很多原先的任务调度平台已经不能满足业务系统的需求,于是出现了一些基于分布式的任务调度平台. 1.1 分布式任务调度的演进在实际业务开发过程中,很多时候我们无可避免地需要使用一些定时任务来解决问题.通常我们会有多种解决方案:使用 Crontab 或 SpringCron (当然这种情况可能机器