spark内核揭秘-01-spark内核核心术语解析

Application:

Application是创建了SparkContext实例对象的spark用户，包含了Driver程序：

Spark-shell是一个应用程序，因为spark-shell在启动的时候创建了一个SparkContext对象，其名称为sc:

Job:

和Spark的action相对应，每一个action例如count、saveAsTextFile等都会对应一个job实例，该job实例包含多任务的并行计算。

Driver Program：

运行main函数并且创建SparkContext实例的程序

Cluster Manager：

集群资源的管理外部服务，在spark上现在有standalone、yarn、mesos等三种集群资源管理器，spark自带的standalone模式能够满足大部分的spark计算环境对集群资源管理的需求，基本上只有在集群中运行多套计算框架的时候才考虑yarn和mesos

Worker Node：

集群中可以运行应用代码的工作节点，相当于Hadoop的slave节点

Executor：

在一个Worker Node上为应用启动的工作进程，在进程中赋值任务的运行，并且负责将数据存放在内存或磁盘上，必须注意的是，每个应用在一个Worker Node上只会有一个Executor，在Executor内部通过多线程的方式并发处理应用的任务。

Task：

被Driver送到Executor上的工作单元，通常情况下一个task会处理一个split的数据，每个split一般就是一个Block块的大小：

State：

一个job会被拆分成很多任务，每一组任务被称为state，这个MapReduce的map和reduce任务很像，划分state的依据在于：state开始一般是由于读取外部数据或者shuffle数据、一个state的结束一般是由于发生shuffle（例如reduceByKey操作）或者整个job结束时，例如要把数据放到hdfs等存储系统上：

时间： 2024-08-13 20:30:40

spark内核揭秘-01-spark内核核心术语解析的相关文章

Spark学习笔记—01 Spark集群的安装

一.概述关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上.Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流. 2.易用 Spark支持Java.Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Sp

14、Spark的核心术语

Application:spark应用程序,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程 Application Jar:这个就是把写好的spark工程,打包成一个jar包,其中包括了所有的第三方jar依赖包,比如java中,就用maven+assembly插件打包最方便 Driver Program:就是运行程序中main方法的进程,这就是driver,也叫driver进程 Cluster

【邀请函】9月17日第13期Spark公益大讲堂：Tachyon内核解析及Spark与Tachyon操作实战

Tachyon是大数据时代杀手锏级别的技术,是大数据时代必须掌握的技术. 通过Tachyon,分布式机器可以基于Tachyon构建的分布式内存文件存储系统来共享数据,这对分布式系统的机器协作和数据共享以及速度的提升都具有非凡的意义: 本次课程我们首先从Tachyon的架构入手,Tachyon的架构和启动原理,然后细致解析Tachyon的操作API,最后通过源码深入解析Spark下的Tachyon. Topic 1:Tachyon架构剖析 Tachyon架构解析: Tachyon安装.启动解析:

[转帖]Greenplum: 基于PostgreSQL的分布式数据库内核揭秘(下篇)

Greenplum: 基于PostgreSQL的分布式数据库内核揭秘(下篇) http://www.postgres.cn/v2/news/viewone/1/454 原作者:姚延栋创作时间:2019-05-08 17:25:25+08 采编:wangliyun 发布时间:2019-05-09 08:25:28 欢迎大家踊跃投稿,投稿信箱:[email protected] 评论:0 浏览:1620 作者介绍姚延栋,山东大学本科,中科院软件所研究生.PostgreSQL中文社区委员

Spark SQL源码分析之核心流程

自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点: 1.整合:将SQL类型的查询语言整合到 Spark 的核心RDD概念里.这样可以应用于多种任务,流处理,批处理,包括机器学习里都可以引入Sql. 2.效率:因为Shark受到hive的编程模型限制,无法再继续优化来适应Spark模型里. 前一段时间测试过Shark,并且对Spark

第一篇：Spark SQL源码分析之核心流程

/** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点: 1.整合:将SQL类型的查询语言整合到 Spark 的核心RDD概念里.这样可以应用于多种任务,流处理,批处理,包括机器学习里都可以引入Sql. 2.效率:因为Shark受到hive的编程模型限制,无法再继续优化来适应Spark

[转帖]Greenplum ：基于 PostgreSQL 的分布式数据库内核揭秘 (上篇)

Greenplum :基于 PostgreSQL 的分布式数据库内核揭秘 (上篇) https://www.infoq.cn/article/3IJ7L8HVR2MXhqaqI2RA 学长的文章.. 姚延栋阅读数:7142019 年 9 月 15 日 17:11 本文经授权转载自公众号 PostgreSQL 中文社区,主要介绍了 Greenplum 集群概述.分布式数据存储和分布式查询优化. 一.数据库内核揭秘 Greenplum 是最成熟的开源分布式分析型数据库(今年 6 月份预计发布的 G

【Spark 深入学习 01】 Spark是什么鬼？

经过一段时间的学习和测试,是时候给spark的学习经历做一个总结了,对于spark的了解相对晚了写.春节期间(预计是无大事),本博准备推出20篇左右spark系列原创文章(先把牛吹出去再说) ,尽量将枯燥无味的技术讲的通俗易懂- r.kelly 2013年的时候第一次听说spark这么个神器,那时候它还幼小,没什么人鸟它,但是它强大基因注定了它不是个凡夫俗子, 故事就是从那一小撮人群中开始的. 一.Spark何许人也姓名:Spark 性别:未知出生地:加州大学伯克利分校AMP实验室出生年月

01 Spark源码编译

1.1设置机器名:hostname gedit /etc/sysconfig/network Scala http://www.scala-lang.org/ cd /opt mkdir scala cp /home/hserver1/desktop/scala-2.12.2.tgz /opt/scala cd /opt/scala tar -xvf scala-2.12.2.tgz 配置环境变量 gedit /etc/profile export SCALA_HOME=/opt/scala/s

猜你喜欢

如何提问问题？--《提问的智慧》再次推荐

下午在某群中有位网友A问: "大神们,问你们个问题,我在虚拟机里装了个服务器,怎么去配IP啊" 下面网友BC唏嘘了几下,网友B表示震惊,网友C表示"Google一大把&q ...

python 网络框架twisted基础学习及详细讲解

twisted网络框架的三个基础模块:Protocol, ProtocolFactory, Transport.这三个模块是构成twisted服务器端与客户端程序的基本. Protocol:Proto ...

session和cookie的简单理解

0. 引子,我们为什么要cookie和session 因为http请求是无状态的(不能记录用户的登录状态等),所以需要某种机制来保存用户的登录状态等信息,在下次访问web服务的时候,不用再次校验是否登 ...

检查某个字符串是否由某个子字符串结尾

function confirmEnding(str, target) { if (str.substr(str.length - target.length, target.length) === ...

[傅里叶变换及其应用学习笔记] 十六. 继续上次内容，晶体成像

x射线晶体照像术 1) x射线是1895年由伦琴(Roentgen)发现的,其波长为$10^{-8}$厘米左右,常用的测量可见光波长的方法会由于其波长太小而无法测量. 2) 晶体(Crystals), ...

函数的调用（取两个整型变量中的最大值）

namespace c编程练习题 { class Program { /// <summary> /// 求两个整型变量中的最大值. /// </summary> /// &l ...

制作iOS Ad-Hoc测试应用

本文是保证完成iOS真机测试证书一系列导入流程的前提下所做的操作,如还没有进行上述工作,请在网络上找寻相关资料,这里不再赘述. 1.添加Devices: 登录苹果开发者网站:https://devel ...

js中typeof和instanceof用法区别

typeof和instanceof的区别 typeof和instanceof都可以用来判断变量,它们的用法有很大区别: typeof会返回一个变量的基本类型,只有以下几种:number,boolean ...

利用matlab摄像机标定

(1)输入图像 "Image names"键 Matlab的图形窗口显示出20幅靶标图像 (2) 提取角点 "Extract grid corners"键. 输 ...

软件项目开发环境构建之五：Confluence、Jira、Bitbucket统一账户管理

在多个系统中,用一个账户能够登陆多个系统并具备角色授予的权限(所谓的单点登陆),无疑是最受人欢迎的,Atlassian软件家族可以通过多种方式来整合各系统的用户,常用的有: 1.通过统一使用外部数据库 ...

android注册页面

页面效果图 Main.xml源码 <?xml version="1.0" encoding="utf-8"?> <TableLayout xm ...

C++ Primer Plus学习：第十章

过程性编程和面向对象编程面向对象编程(OOP)的特性: 抽象封装和数据隐藏多态继承代码的可重用性抽象和类类是一种将抽象转化为用户定义类型的C++工具,它将数据表示和操纵数据的方法合成一个 ...

图书馆管理系统——菜鸟第一次下水(一)

作为一名计算机专业的大三学渣的撸主,感觉大三了,基本的核心课程也学不少了JAVA面向对象程序设计.数据库.数据结构--,都没咋敲过代码做过东西,甚是不安!!最近在学JAVA WEB ,为了不想在之后连 ...

mnesia在频繁操作数据的过程可能会报错:** WARNING ** Mnesia is overloaded: {dump_log, write_threshold},可以看出,mnesia应该是 ...

css各种布局

1.水平居中前提:父容器.parent 和子容器.child 1)使用text-align和inline-block .parent{text-aling:center}; .child {disp ...

Error in library(e1071) : there is no package called 'e1071'

学习R语言时,在安装包的时候都是正常的,但当导入包的时候通常会出现下面的情况: libaray(e1071) Error in library(e1071) : there is no package ...

二十三、oracle pl/sql分类三包

包用于在逻辑上组合过程和函数,它由包规范和包体两部分组成.1).我们可以使用create package命令来创建包,如:i.创建一个包sp_packageii.声明该包有一个过程update_sal ...

CSS中的display:inline-block

1.display:inline-block 2.IE中的inline-block 3.其它浏览器 1.display:inline-block 让一个元素具有“区块元素”的属性(可以设置width和 ...

计算手动输入的文本长度

var len=8; //初始长度 for(var i=0;i<sErrType.length;i++){ var sensor = $('<pre>'+sErrType[i]+' ...

蓝桥杯之K好数问题

问题描写叙述假设一个自然数N的K进制表示中随意的相邻的两位都不是相邻的数字,那么我们就说这个数是K好数.求L位K进制数中K好数的数目.比如K = 4,L = 2的时候,全部K好数为11.13.20. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.