RDD:弹性分布式数据集, 是分布式内存的一个抽象概念
RDD:1.一个分区的集合,
2.是计算每个分区的函数 ,
3.RDD之间有依赖关系
4.一个对于key-value的RDD的Partitioner
5.一个存储存取每个Partition的优先位置的列表
RDD算子:
Transformations:不会立即执行,只是记录这些操作
Actions:计算只有在action被提交的时候才被触发。
RDD依赖关系:
窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用
宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition
原文地址:https://www.cnblogs.com/dummyly/p/10041617.html
时间: 2024-11-13 09:47:11