Spark源码剖析——SparkContext的初始化(六)_创建和启动DAGScheduler

6.创建和启动DAGScheduler

DAGScheduler主要用于在任务正式交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建Job，将DAG中的RDD划分到不同的Stage，提交Stage，等等。创建DAGScheduler的代码如下：

DAGScheduler的数据结构主要维护jobId和stageId的关系、Stage、ActiveJob、以及缓存的RDD的partitions的位置信息，见代码：

DAGSchedulerEventProcessLoop能处理的消息类型，比如JobSubmitted、MapStageSubmitted、StageCancelled、JobCancelled、JobGroupCancelled、AllJobsCancelled、ExecutorAdded、ExecutorLost、BeginEvent、GettingResultEvent、completion、TaskSetFailed、ResubmitFailedStages。DAGSchedulerEventProcessLoop接受这些消息后会有不同的处理动作。DAGSchedulerEventProcessLoop的代码实现如下：

原文地址：https://www.cnblogs.com/swordfall/p/9314940.html

时间： 2024-09-28 23:36:09

Spark源码剖析——SparkContext的初始化(六)_创建和启动DAGScheduler的相关文章

Spark源码剖析——SparkContext的初始化(四)_TaskScheduler的启动

7. TaskScheduler的启动第五节介绍了TaskScheduler的创建,要想TaskScheduler发挥作用,必须要启动它,代码: TaskScheduler在启动的时候,实际调用了backend的start方法,即同时启动了backend.local模式下,这里的backend是localSchedulerBackend.在TaskScheduler初始化时传入localSchedulerBackend.以LocalSchedulerBackend为例,启动LocalSched

Spark源码剖析——SparkContext的初始化(四)_Hadoop相关配置及Executor环境变量

4. Hadoop相关配置及Executor环境变量的设置 4.1 Hadoop相关配置信息默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下: 获取的配置信息包括: 将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration: 将SparkConf中所有以spark.hadoop. 开头的属性都复制到Hadoop的Configuration: 将SparkConf的属性s

《Apache Spark源码剖析》

Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面.系统地介绍了Spark源码,深入浅出,细致入微2.提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序3.始终抓住资源分配.消息传递.容错处理等基本问题,抽丝拨茧4.一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然内容简介书籍计算机书籍 <Apache Spark源码剖析>以Spark

菜鸟nginx源码剖析数据结构篇（六）哈希表 ngx_hash_t（上）

Author:Echo Chen(陈斌) Email:[email protected] Blog:Blog.csdn.net/chen19870707 Date:October 31h, 2014 1.哈希表ngx_hash_t的优势和特点哈希表是一种典型的以空间换取时间的数据结构,在没有冲突的情况下,对任意元素的插入.索引.删除的时间复杂度都是O(1).这样优秀的时间复杂度是通过将元素的key值以hash方法f映射到哈希表中的某一个位置来访问记录来实现的,即键值为key的元素必定存储在哈希

Spark源码剖析（一）：如何将spark源码导入到IDEA中

由于近期准备深入研究一下Spark的核心源码,所以开了这一系列用来记录自己研究spark源码的过程! 想要读源码,那么第一步肯定导入spark源码啦(笔者使用的是IntelliJ IDEA),在网上找了一圈,尝试了好几种方法都没有成功,最终通过自己摸索出了一种非常简单的方式(只需要两步即可!) 环境要求 IntelliJ IDEA(Community版本即可) maven(当然jdk是不可少的) 具体信息如下: C:\Users\Administrator>mvn -version Apache

spark源码解读-SparkContext初始化过程

sparkcontext是spark应用程序的入口,每个spark应用都会创建sparkcontext,用于连接spark集群来执行计算任务.在sparkcontext初始化过程中会创建SparkEnv,SparkUI,TaskSchedule,DAGSchedule等多个核心类,我们会逐个分析他们. 下面我们看一下sparkcontext的初始化过程,首先判断一些参数, try { _conf = config.clone() _conf.validateSettings() if (!_co

spark源码之SparkContext

SparkContext可以说是Spark应用的发动机引擎,Spark Drive的初始化围绕这SparkContext的初始化. SparkContext总览 sparkcontxt的主要组成部分 sparkEnv:spark运行环境,Executor是处理任务的执行器,依赖于SparkEnv的环境.Driver中也包含SparkEnv,为了保证Local模式下任务执行.此外,SparkEnv还包含serializerManager.RpcEnv.BlockManager.mapOutputT

Spark源码剖析（八）：stage划分原理与源码剖析

引言对于Spark开发人员来说,了解stage的划分算法可以让你知道自己编写的spark application被划分为几个job,每个job被划分为几个stage,每个stage包括了你的哪些代码,只有知道了这些之后,碰到某个stage执行特别慢或者报错,你才能快速定位到对应的代码,对其进行性能优化和排错. stage划分原理与源码接着上期内核源码(五)的最后,每个action操作最终会调用SparkContext初始化时创建的DAGSchedule的runJob方法创建一个job: 那么

我的Spark源码核心SparkContext走读全纪录

Dirver Program(SparkConf) package org.apache.spark.SparkConf Master package org.apache.spark.deploy.master SparkContext package org.apache.spark.SparkContext Stage package org.apache.spark.scheduler.Stage Task package org.ap

猜你喜欢

javascript函数

js函数的分类函数声明 function add(a,b){ return a+b } 函数表达式  var add = function(){ } < ...

ansible-playbook批量部署安装tomcat

tomcat安装脚本: --- - name: Tomcat install and configuration hosts: "{{ host }}" user: roo ...

ASP.NET的SEO：Linq to XML---网站地图和RSS Feed

本系列目录网站地图的作用是让搜索引擎尽快的,更多的收录网站的各个网页. 这里我们首先要明白一个基本的原理,搜索引擎的爬行方式.整个互联网就像一张纵横交错的"网":网的各个节 ...

CSS的标签与含义

Font:设置字体系列.什么叫字体系列呢?是指对文字设定几个字体,当遇到第一个字体不能显示的文字时会自动用系列中的第二个字体或后面的字体显示.相对应的CSS属性是”font-family”. ...

获取要下载文件的大小信息

原文来自IOS教程网,转载时请注明文章的来源:http://ios.662p.com/thread-1660-1-1.html NSURLConnectionDataDelegate方法中有: ? 1 ...

[2015hdu多校联赛补题]hdu5324 Boring Class

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5324 题意:给你一个二维的序列,让你找出最长的第一维升第二维降的子序列(如果多个答案,输出字典序最小) ...

emacs 笔记杂录待整理

emacs 帮助 1 按f1 然后可以搜具体函数或变量的意义 emacs 函数记录 setenv 设置环境变量 setq 设置环境变量环境变量说明: home 类比linux default-dir ...

MySQL必须知道的常识

前言书读百遍,其义自现.大家都知道,但是现在的社会真的很浮躁,又有多少人可以静下来看看书呢?!!只要一有问题就是百度,Google...实际上,书上写的很清楚,所有的解决方法都在书中,对于一个产 ...

内存四区分析

代码区代码区code,程序被操作系统加载到内存的时候,所有的可执行代码都加载到代码区,也叫代码段,这块内存是不可以在运行期间修改的. 静态区所有的全局变量以及程序中的静态变量都存储到静态区,比较 ...

关于Fragment API版本号兼容问题

Fragment 是在API 11(android 3.0)被引入的.然而我的应用的 android:miniSdkVersion 是 API 8,也就是说该应用是兼容旧版本号的.为了可以兼容旧版 ...

ASP.NET MVC 5 WEB API 启用PUT方法

Web.config 添加配置如下: <system.webServer>  <httpProtocol ...

函数的定义及其返回值、参数等相关操作

在学习函数之前,一直遵循:面向过程编程,即:根据业务逻辑从上到下实现功能,其往往用一长段代码来实现指定功能,开发过程中最常见的操作就是粘贴复制,也就是将之前实现的代码块复制到现需功能处,如下: whi ...

HDU 5884 Sort (二分)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5884 nn个有序序列的归并排序.每次可以选择不超过kk个序列进行合并,合并代价为这些序列的长度和.总的 ...

【操作系统】进程调度及其算法

进程调度的任务保存处理机信息按某种算法选取进程把处理器分配给进程进程调度机制排队器.把就绪进程排成一个或者几个队列分派器.把进程从就绪队列中取出来,然后把处理机给他上下文切换器.保存上一 ...

HTTP1.1请求和响应的基本用法

HTTP1.1是现在普遍使用的TCP/IP的应用层协议,按照Volley中的描述,可以把HTTP传输数据相关对象分为两个类,一个叫Request(请求),一个是Response(响应). 对于一个基本 ...

【初始化-系统时间】init_datetime.sh

#!/bin/bash # # 2014/07/15 #timezone ec_timezone() { echo "[*] timezone: Asia/Shanghai&quo ...

Spring EL hello world实例

Spring EL与OGNL和JSF EL相似,计算评估或在bean创建时执行.此外,所有的Spring表达式都可以通过XML或注解. 在本教程中,我们将学习如何使用Spring表达式语言(SpEL) ...

单片机 & 4×4矩阵键盘 & 4位串行595数码管显示

1 #include ? <reg52.h> 2 #define uchar unsigned char 3 #define uint unsigned int 4 //Led数码管数 5 ...

壬雅读锤堤绦加绦颜

http://www.ebay.com/cln/jztlfxnzj-ljxtpjfrl/-/137973466012http://www.ebay.com/cln/nzbdphjth-xbfrzttz ...

多级弹出菜单jQuery插件ZoneMenu

ZoneMenu是一个菜单jQuery插件,只需占用页面上的一个小区域,却可以实现多级菜单. 在线体验:http://keleyi.com/jq/zonemenu/ 点击这里下载完整HTML文件代码 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.