Spark概念梳理

1）spark通常把shuffle操作定义为划分stage的边界，其实stage的边界有两种：ShuffleMapTask和ResultTask。ResultTask就是输出结果，输出结果的称为ResultTask，都为引起stage的划分，比如以下代码：

rdd.parallize(1 to 10).foreach(println)

每个stage内部，一定有一个ShuffleMapTask或者是ResultTask，因为这两者是划分stage的依据，是stage之间的边界。一个stage中的所有task最后会以taskSet的形式提交给TaskScheduler去执行，Spark实现了三种不同的TaskScheduler，包括LocalSheduler、ClusterScheduler和MesosScheduler。

2）actions(动作)会生成一个job，触发job的提交，所以我们从客户端提交的一个作业可能会被划分为多个job。但是，如果一个action后没有其他操作，也就是这个action是最后一个操作的话，这个action就独立为一个stage，而非提交一个job。（参考0）

3)task分为ShuffleMapTask和ResultTask（参考1）。

时间： 2024-12-14 19:51:11

Spark概念梳理的相关文章

Javascript基本概念梳理

javascript里的数据类型: 原始类型:数字,字符串,布尔值.(原始值:null,undefined) 对象类型:键值对,数组,function,全局对象(MATH,JSON) 包装对象的概念: 字符串"aaa".len 字符串并不是对象,但是却可以调用它的属性,说明这只是一个临时对象,内部用new String()来创建的临时的. 原始类型是永远不可变的,所以可以比较他们的值,但是对象类型是可变的,不能比较他们的值. Javascript原型和继承: Javascript里每个

[DOM Event Learning] Section 2 概念梳理什么是事件 DOM Event

[DOM Event Learning] Section 2 概念梳理什么是事件 DOM Event 事件事件(Event)是用来通知代码,一些有趣的事情发生了. 每一个Event都会被一个Event对象所表示,这个对象可能还会有一些自定义的字段或者方法,来获取发生什么事情的更多信息. Event对象实现了Event接口(https://developer.mozilla.org/en-US/docs/Web/API/Event). 事件可以是任何事情,从最基本的用户交互,到renderin

分布式、微服务、集群概念梳理

分布式.微服务.集群概念梳理分布式从本质上讲分布式表明的是一种解决方案,即由传统的单体应用,扩展成多体结构. 它的实施基础就是将可以独立出来的功能模块放在不同的服务器上,然后通过REST,RPC,消息中间件等方式来实现不同服务器之间的通信,这些不同服务器上的不同模块实现通信后,最后组成多体应用. 说的分布式,就不得不提到SOA架构,SOA是软件开发重要的思想,即面向服务的体系结构,是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来.接口是采用中

Spark概念介绍

Spark概念介绍:spark应用程序在集群中以一系列独立的线程运行,通过驱动器程序(Driver Program)发起一系列的并行操作.SparkContext对象作为中间的连接对象,通过SparkContext对象连接集群.SparkContext对象可以连接集群管理器(YARN,Mesos.standalone等) 目前Spark集群支持以下集群管理模式:(1)本地模式(2)Mesos模式: 一种通用的集群管理模式,可以运行Hadoop Mapreduce和应用服务 (3)YARN模式:H

汇编语言程序设计第2章概念梳理

汇编语言程序设计第2章概念梳理 8086 14个寄存器: AX,BX,CX,DX (通用寄存器) SI,DI,BP,SP (基址和变址寄存器) CS,SS,DS,ES (段寄存器) IP,FLAGS (指令指针和标志寄存器) 通用寄存器: AX,BX,CX,DX通常用于存放一般性数据称为通用寄存器一般存储的数据范围为0 ~ 2^16-1 且为了与早期CPU操作兼容,这4个寄存器均可拆分成2个8位寄存器单独使用 { AX分为AH和AL BX分为B

汇编语言程序设计第3章概念梳理

汇编语言程序设计第3章概念梳理基础概念部分:{ 字数据在内存当中的存储:高-高低-低字数据的低位字节存放在低地址内存单元字数据的高位字节存放在高地址内存单元取低地址内存单元地址作为字数据地址,例如数据124EH: 12H存储在偏移量为"2"的字节单元,4EH存储在偏移量为"1"的字节单元则从地址为"1"的地址单元取出的一个字数据为124EH 12为高位,故存储在高位"2"单元,4E

Kubernetes几个神奇的概念梳理

Kubernetes 功能丰富而强大,学习研究期间有些概念,个人感觉还是有点绕,为了方便理解简单进行梳理,相关核心概念整理如下: K8s控制器Deployment与DaemonSet区别不同点 Deployment 部署的副本 Pod 会分布在各个 Node 上,每个 Node 都可能运行好几个副本.DaemonSet 的不同之处在于,每个 Node 上最多只能运行一个副本. kubernetes 中三种IP 包括 1. NodeIP node节点的IP地址 2. Pod IP pod的IP地

Web Service概念梳理

计算机技术难理解的很多,Web Service 对我来说就是一个很难理解的概念:为了弄清它到底是什么,我花费了两周的时间,总算有了一些收获,参考了不少网上的资料,但有些概念说法不一.我以w3c和一些早期介绍Web Service的书为准.如有错误,欢迎指正! -------------------------------------------------------------- 提前预警!概念太多,你需要仔细阅读,或要阅读两遍. SOA

多通道(Multichannel)单通道(singlechannel)图像概念梳理

在做机器视觉时,常常要将一个多通道图像分离成几个单通道图像或者将几个单通道图像合成一个多通道图像,以方便图像处理,但是.写这篇博客,是为加深对这两个概念的理解,下面会给出部分OpenCV对单通道与多通道图像间相互转化的程序代码,并对运行结果进行观察分析. OpenCV中常用IplImage或CvMat存储图像矩阵,而对这两个对象的初始化函数cvCreateImage(CvSize size, int depth, int channels )和cvCreateMat( int rows, int

猜你喜欢

js如何计算一个字符在字符串中出现的次数

js如何计算一个字符在字符串中出现的次数:在实际应用中可能要计算一个字符在字符串中出现的次数,实现此功能的方式有多种,下面就介绍一个非常简单的方式.代码实例如下: function func(str, ...

asp.net web.config配置节说明

web.config 文件查找规则: (1)如果在当前页面所在目录下存在web.config文件,查看是否存在所要查找的结点名称,如果存在返回结果并停止查找. (2)如果当前页面所 ...

BestCoder Round #11 (Div. 2) 题解

HDOJ5054 Alice and Bob Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/O ...

蚁群算法求解迷宫最优路径问题

本段程序的基本思想是利用蚁群算法中的蚁周模型,来对全局的迷宫图进行信息素的跟新和为每一只蚂蚁选择下一个方格. 一共会进行RcMax = 2000轮模拟(理论上模拟的次数越多结果会越接近真实值),而 ...

[Python笔记]Python学习笔记四

模块在Python中,一个.py文件就是一个模块(Module) 使用模块的好处就是大大提高代码的可维护性,并且可以被其他地方引用. 同时可以避免函数名和变量名的冲突. Package(包) 每个包 ...

C语言计算代码执行所耗CPU时钟周期

#include "windows.h" LARGE_INTEGER _start = { 0 }, _end = { 0 }; __asm{ rdtsc mov dword pt ...

面向对象三大基本特性,五大基本原则

透切理解面向对象三大基本特性是理解面向对象五大基本原则的基础. 三大特性是:封装,继承,多态所谓封装,也就是把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的 ...

距离和时间从来都不是感情的决定因素

http://www.jiaoyou8.com/friends_diary/yongqi79/0_0_0/view_0010730652_no_0_0.html http://www.jiaoyou8 ...

iOS学习笔记-精华整理

iOS学习笔记总结整理一.内存管理情况 1- autorelease,当用户的代码在持续运行时,自动释放池是不会被销毁的,这段时间内用户可以安全地使用自动释放的对象.当用户的代码运行告一段落,开始 ...

iOS-简化单例模式（定义成宏以后通用）

// .h文件 #define HMSingletonH + (instancetype)sharedInstance; // .m文件 #define HMSingletonM static id ...

9.5——容器的选用

容器的选用: 元素是否是连续的存储主要影响下面两个方面: (1)在容器中间位置的元素的添加和删除 (2)容器元素的随机访问的代价 vector和deque容器:提供了对元素的快速随机访问,但是付出的代 ...

[BZOJ 3236] [Ahoi2013] 作业 && [BZOJ 3809] 【莫队 | 分块】

题目链接: BZOJ - 3236 BZOJ - 3809 算法一:莫队首先,单纯的莫队算法是很好想的,就是用普通的第一关键字为 l 所在块,第二关键字为 r 的莫队. 这样每次端点移动添加或删 ...

docker命令总结（详细汇总）

docker容器相关操作的命令 docker create #创建一个容器但是不启动它 docker run #创建一个容器并启动它 docker stop #停止一个容器 docker sta ...

.Net垃圾回收和大对象处理

本文引自:http://www.cnblogs.com/yukaizhao/archive/2011/11/21/dot_net_gc_large_object_heap.html CLR垃圾回收器根 ...

数论学习_素数测试

质数(prime number)又称素数,有无限个.质数定义为在大于1的自然数中,除了1和它本身以外不再有其他因数,这样的数称为质数. 对于判定质数,有一个很显然的方法就是判断除了1和他本身之外有没有 ...

TN2501上传语音文件

1:查看TN2501的ip,这里提供2种方法 a.list ip-interface val b.display node-names ip 2:打开TN2501的ftp功能,如图 Login:输入用 ...

SCU 4493 DNA

Time Limit: 1000 MS Memory Limit: 131072 K Description Deoxyribonucleic acid (DNA) is a molecule ...

javascript_String方法小结(二)（字符串函数扩充）

/* =========================================== //去除左边的空格 =========================================== ...

ORACLE百例试炼五

Oracle系列<五>:SQL综合练习 [1]列出最低薪金大于1500的各种工作及从事此工作的全部雇员人数 select job,count(*) from emp group by j ...

查看centos版本号

--写在开始-- 玩Linux,不同的版本会有一些细微区别: so,经常需要查看服务器版本号: --正文-- 有以下命令可以查看linux服务器版本号: # lsb_release -a LSB Ve ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.