spark中资源调度任务调度

在spark的资源调度中

1、集群启动worker向master汇报资源情况

2、Client向集群提交app，向master注册一个driver（需要多少core、memery）,启动一个driver

3、Driver将当前app注册给master，（当前app需要多少资源），并请求启动对应的Executor

4、driver分发任务给Executor的Thread Pool。

根据Spark源码可以知道：

1、一个worker默认为一个Application启动一个Executor

2、启动的Executor默认占用这个worker的全部资源

3、如果要在一个worker上启动多个Executor，（前提：在内存充足的情况下）需要设置--executor-cores num 参数

宽依赖、窄依赖

窄依赖：父RDD与子RDD，partition之间是一对一的关系，或者多对一的关系。

宽依赖：父RDD与子RDD，partition之间是一对多，多对多的关系。

注意：

1、Stage的划分是根据宽窄依赖进行的，Satge与Satge之间是根据宽依赖划分的，每个Satge内部是窄依赖的。

2、窄依赖内部父RDD与子RDD之间的Partition是一对一的关系。

3、一个Satge内部是由多个RDD组成，在运行的过程中，会形成一个个并行的task，每个task形成一个pipeline。

4、在pipeline的运行过程中，数据不会落地，只有在右侧的join阶段的shuffle write才会数据落地。

Spark任务调度

Spark的任务调度过程

RDD之间有依赖关系，所以可以根据依赖关系倒推回去，寻找到RDD的所有依赖关系，形成DAG（有向无环图）

由RDD Object将DAG传递给DAGScheduler

DAGScheduler会根据宽依赖将有向无环图划分为一个个的Satge

DAGScheduler将taskSet传递给TaskScheduler（实际上taskScheduler和Stage是相同的，只是叫法不同）

TaskScheduler会将TaskSet划分为一个个的task，传递给worker

worker会将task放入反序列化放入自己的线程池中，进行执行。

注意：

默认情况下TaskScheduler会对计算失败的task重试3次

默认情况下DAGScheduler会对计算失败的Stage重试4次

一共重试3*4=12次

未避免在对数据库操作时，操作一半失败，重试导致数据重复插入问题，可以采取两个办法

（1）设置主键

（2）关闭推测执行（默认是关闭的）

特殊情况：

如果task在执行的过程中报错shuffle file not find错误信息，此时TaskScheduler是不负责重试的，直接抛出对应的Satge运行失败，由DAGScheduler负责重试，如果DAGScheduler4次重试失败，则直接显示Job运行失败。

原文地址：https://www.cnblogs.com/learn-bigdata/p/10793669.html

时间： 2024-07-31 16:42:33

spark中资源调度任务调度的相关文章

Tachyon在Spark中的作用（Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译）

摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享.当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者是磁盘进行复制操作.Tachyon通过将"血统"技术引入到存储层进而消除了这个瓶颈.创建一个长期的以"血统机制"为基础的存储系统的关键挑战是失败情况发生的时候及时地进行数据恢复.Tachyon通过引入一种检查点的算法来解决问题,这样的方法保证了恢复过程的有限开销以及通过资源调度器下进行

Spark中资源与任务的关系

在介绍Spark中的任务和资源之前先解释几个名词: Dirver Program:运行Application的main函数(用户提交的jar包中的main函数)并新建SparkContext实例的程序,称为驱动程序,通常用SparkContext代表驱动程序(任务的驱动程序). Cluster Manager:集群管理器是集群资源管理的外部服务.Spark上现在主要有Standalone.YARN.Mesos3种集群资源管理器.Spark自带的Standalone模式能满足绝大部分 Spark计

初解，Scala语言中基于Actor的并发编程的机制，并展示了在Spark中基于Scala语言的Actor而产生的消息驱动框架Akka的使用,

Scala深入浅出实战中级--进阶经典(第66讲:Scala并发编程实战初体验及其在Spark源码中应用解析)内容介绍和视频链接 2015-07-24 DT大数据梦工厂从明天起,做一个勤奋的人看视频.下视频,分享视频 DT大数据梦工厂-Scala深入浅出实战中级--进阶经典:第66讲:Scala并发编程实战初体验及其在Spark源码中的应用解析本期视频通过代码实战详解了Java语言基于加锁的并发编程模型的弊端以及Scala语言中基于Actor的并发编程的机制,并展示了在Spark中基于Sc

spark中的广播变量broadcast

Spark中的Broadcast处理首先先来看一看broadcast的使用代码: val values = List[Int](1,2,3) val broadcastValues = sparkContext.broadcast(values) rdd.mapPartitions(iter => { broadcastValues.getValue.foreach(println) }) 在上面的代码中,首先生成了一个集合变量,把这个变量通过sparkContext的broadcast函数进

spark中的RDD以及DAG

今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候, 也就是数据有网络的传递的时候),则一个wordCount有两个stage, 一个是reduceByKey之前的,一个事reduceByKey之后的(图1), 则我们可以这样的理解,当我们要进行提交上游的数据的时候, 此时我们可以认

Spark中GraphX图运算pregel详解

由于本人文字表达能力不足,还是多多以代码形式表述,首先展示测试代码,然后解释: package com.txq.spark.test import org.apache.spark.graphx.util.GraphGeneratorsimport org.apache.spark.graphx._import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext, SparkException, gra

Spark中的键值对操作-scala

1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD. 2.创建Pair RDD 程序示例:对一个英语单词组成的文本行,提取其中的第一个单词作为key,将整个句子作为value,建立 PairR

Spark 中 map 与 flatMap 的区别

通过一个实验来看Spark 中 map 与 flatMap 的区别. 步骤一:将测试数据放到hdfs上面 hadoopdfs -put data1/test1.txt /tmp/test1.txt 该测试数据有两行文本: 步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt 步骤三:查看map函数的返回值得到map函数返回的RDD: 查看map函数的返回值--文件中的每一行数据返回了一个数组对象步骤四:查看flatMap函数的返回值得到flatMap函数返回的

为什么spark中只有ALS

WRMF is like the classic rock of implicit matrix factorization. It may not be the trendiest, but it will never go out of style --Ethan Rosenthal 前言 spark平台推出至今已经地带到2.1的版本了,很多地方都有了重要的更新,加入了很多新的东西.但是在协同过滤这一块却一直以来都只有ALS一种算法.同样是大规模计算平台,Hadoop中的机器学习算法库Mah