spark分区数,task数目,core数,worker节点个数,excutor数量梳理

作者：王燚光
链接：https://www.zhihu.com/question/33270495/answer/93424104
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。

输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。
当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。
随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。
随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

每个节点可以起一个或多个Executor。
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task。
每个Task执行的结果就是生成了目标RDD的一个partiton。

作者：王燚光
链接：https://www.zhihu.com/question/33270495/answer/93424104
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

时间： 2024-11-06 09:48:25

spark分区数,task数目,core数,worker节点个数,excutor数量梳理的相关文章

任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量

1.任务中如何确定spark RDD分区数.task数目.core个数.worker节点个数.excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小.当 spark 从 hdfs 上读取数据的时候,会根据具体数据格式对应的 InputFormat 进行解析,一般是将若干个Block合并成一个输入分片,称为 InputSplit,其中要注意InputSplit不能跨越文件 File. (2)spar

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题【转】

转自:http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算:另一部分数据则经由Flume存储至HDFS,用于数据挖掘或机器学习.HDFS存储数据时目录的最小逻辑单位为"小时",为了保证数据计算过程中的数据完整性(计算某个小时目录中的数据时,该目录的数据全部写入完毕,且不再变化),我们在Fl

蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验

一.集群原先配置: 从机名sparkMaster,Ubuntu12.04-32 ,用户名Root , 内存4g (只用于任务调度和分配,不做计算节点) 从机名sparkSlave1,Ubuntu12.04-32 ,用户名Root , 内存4g (计算节点) 从机名sparkSlave2,Ubuntu12.04-32 ,用户名Root , 内存1.7g (计算节点) 二.扩展原因:计算数据量增大,原先的两个工作节点已不不能满足实时性的需求,由于实验室计算资源有限,故将原先的调度节点也增

第三十七课 Spark之Task执行原理及结果

主要内容 1. Task执行原理流程图 2. Task执行源码 3. Task执行结果在Driver端的处理一.Task在Executor(worker)端执行及返回Driver流程图图37-1 Driver端与Executor交互图二.Executor(worker)端执行源码解析 1.接收Driver端发来的消息当Driver中的SchedulerBackend给ExecutorBackend发送LaunchTask之后,ExecutorBackend在接收到

SPARK如何使用AKKA实现进程、节点通信

SPARK如何使用AKKA实现进程.节点通信 <深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析>一书第一章的内容请看链接<第1章环境准备> <深入理解Spark:核心思想与源码分析>一书第二章的内容请看链接<第2章 SPARK设计理念与基本架构> <深入理解Spark:核心思想与源码分析>一书第三章第一部分

spark出现task不能序列化错误的解决方法

应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下: JavaSparkContext sc = new JavaSparkContext(conf); JavaHiveContext sqlContext = new JavaHiveContext

Spark之Task原理分析

在Spark中,一个应用程序要想被执行,肯定要经过以下的步骤: 从这个路线得知,最终一个job是依赖于分布在集群不同节点中的task,通过并行或者并发的运行来完成真正的工作.由此可见,一个个的分布式的task才是Spark的真正执行者.下面先来张task运行框架整体的对Spark的task运行有个大概的了解. task运行之前的工作是Driver启动Executor,接着Executor准备好一切运行环境,并向Driver反向注册,最终Driver向Executor发送LunchTask事件消息

spark 写入 redis 和 org.apache.spark.SparkException: Task not serializable

spark将数据写入redis时调用以下代码会报 org.apache.spark.SparkException: Task not serializable import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = rdd.map(x => { val arr = x.split(" ") val k = arr(0).toInt val

使用kubeadm部署k8s集群09-配置worker节点

使用kubeadm部署k8s集群09-配置worker节点 2018/1/4 配置 worker 节点初始化加入集群切换 worker 节点连接到 apiserver 的 LB 入口调整集群中节点角色和调度策略初始化 /etc/hosts ### k8s master @envDev 10.10.9.67 tvm-00 10.10.9.68 tvm-01 10.10.9.69 tvm-02 k8s worker @envDev 10.10.9.74 tvm-0310.10.9.75 t

猜你喜欢

（1）-使用json所要用到的jar包下载

json是个非常重要的数据结构,在web开发中应用十分广泛.我觉得每个人都应该好好的去研究一下json的底层实现,需要准备下面的六个jar包:commons-lang-1.0.4.jar common ...

BestCoder Round #9

BestCoder Round #9 题目链接 A:暴力枚举一个数字,就能求出另一个数字,for一遍即可 B:博弈,判断前n - 1个开头连续1的奇偶性即可 C:先预处理出每个点对应哪几个点,每次查询 ...

微信开发python+django两个月的成功经历，django是个好框架！

时间:大三上学期没有用微信内置浏览器而纯对话开发,坑了自己好一下. 下学期选错bottle框架,以为轻量好,谁知开发中什么都自己来很痛苦. 选对了框架django,终于在大三最后的个把月里写出了里程 ...

python判断参数是否是合法标识符

import string def is_valid_identifier(param): alphas = string.letters + '_' nums = string.digits if ...

从最近北京摩拜科技被列入“经营异常名录”谈起

2016年下半年,共享单车在迅速席卷一二线城市,并向三四线城市快速扩张的同时,也成功引发极高关注度--被放在显微镜下仔细观察.近日,国家企业信用信息公示系统中显示,一个法定代表人为胡玮炜,名为北京摩拜 ...

CentOS 6.6 系统中文件类型，属性与权限

一.系统中的文件类型. 类型: ①'d'代表目录文件, dr-xr-xr-x. 5 root root 1024 2月 27 00:15 boot 'dr-xr-xr-x.'中的'd',就是表示 ...

GLUT的一个简洁OO封装

毕业设计用到了OpenGL,由于不会用MFC和Win32API做窗口程序:自然选用了GLUT.GLUT很好用,就是每次写一堆Init,注册callback,觉得有点恶心,于是对他做了简单的OO封装.记 ...

CSS div水平垂直居中和div置于底部

一.水平居中 .hor_center { margin: 0 auto; } 二.水平垂直居中 .content { width: 360px; height: 240px; } .ver_hor_c ...

shell脚本的特殊字符

1. # 注释作用, #! 除外此外, 在参数替换 echo ${PATH#*:} 这里不表示注释, 数制转换, 不表示注释 echo $((2#101011)) 2. ; 命令行分隔符, 可以在一 ...

Android 手电筒源码

最近由于公司需要,做了一个手电筒,其实手电筒原理很简单,就是调用照相机的闪光灯,控制闪光灯的开关,就可以实现手电筒的效果, 强调一下,代码中一定要注意在结束的时候对闪光灯进行释放,否则就会导致使用照相 ...

架构:skip-gram(慢.对罕见字有利)vs CBOW(快) · 训练算法:分层softmax(对罕见字有利)vs 负采样(对常见词和低纬向量有利) · 欠采样频繁 ...

bzoj-1112 砖块Klo

题意: 给出一个长度为n的数列,现要将其连续k个数变成一样的: 每次可以对一个数+1或-1,问最小操作次数: 1<=k<=n<=100000,0<=数列中的数<=1000 ...

[转载] 单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

原文: http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=209406532&idx=1&sn=2e9b0cc02bdd ...

js数组操作大全

shift:删除原数组第一项,并返回删除元素的值:如果数组为空则返回undefined var a = [1,2,3,4,5]; var b = a.shift(); //a:[2,3,4,5] b: ...

DUAL is a table automatically created by Oracle Database along with the datadictionary. DUAL is in t ...

监控摄像头每小时录像大约是多大？

单路视频24小时存储1天的计算公式∑(GB)＝码流大小(Mbps)÷8×3600秒×24小时×1天÷1024. ? 高清720P(1280×720)格式: 按4Mbps码流计算,存放1天的数据总容量4 ...

osip报文的解析速度测试

在惊鸿一瞥中,发现osip_event.c文件测试解析osip报文的速度非常值得我们参考,尤其是大数据解析的时候:osip_event_t *osip { int kk; int pst ...

Discuz3.3注册程序修改添加记录推荐人账号

Discuz3.3注册入口地址为:member.php?mod=register 一.member.php: 打开之后,代码非常简单. 其中有一句: 1 $mod = !in_array($discu ...

HDU 1241 ：Oil Deposits

Oil Deposits Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Tot ...

Linux数据库的导入导出

Linux数据库的导入导出 1.导入数据库 mysql -u username -p test < /home/data/test.sql 说明:username是数据库用户名,test为目标数 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.019 s.