- Spark中最重要的机制有那些?
1.RDD,2.Spark调度机制,3Shuffle过程
- 什么是RDD?
可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD
RDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次分布式体现是并行计算以及需要解决容错问题,也就是根据依赖,找到第一层RDD,最后根据RDD编号与分区编号,可以唯一确定该分区对应的块编号,就能从存储介质中提取出分区对应的数据。在就是弹性,RDD在可以不改变内部存储数据记录的前提下,去调整并行计算单元的划分结构(这个可能就是Stage)
- 基本概念
(1)应用程序:
(2)驱动程序:
(3)Master节点
(4)Worker节点
(5)任务执行器
(6)作业
(7)阶段
(8)任务集与任务
- RDD为什么要划分Stage,怎么划分stage?
- Spark如何管理资源?
- Spark内部如何调度?
- Shuffle是怎么个过程?
时间: 2024-10-10 17:44:08