Spark-RDD简介

RDD简介

在Spark集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed DataSet，RDD），它是逻辑集中的实体，在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制，能够减少机器之间的数据重排（Data Shuffle）。Spark提供了“partitionBy”运算符，能够通过集群中多台机器之间对原始RDD进行数据再分配来创建一个新的RDD。RDD是Spark的核心数据结构，通过RDD的依赖关系形成Spark的调度顺序。通过RDD的操作形成整个Spark程序。
   RDD有四种创建方式，如下：
       1、从Hadoop文件系统（或与Hadoop兼容的其他持久化存储系统，如Hive、Cassandra、HBase）输入（如HDFS）创建。
       2、从父RDD转换得到新的RDD。
       3、调用SparkContext()方法的parallelize，将Driver上的数据集并行化，转化为分布式的RDD。
       4、更改RDD的持久性（persistence），例如cache()函数。默认RDD计算后会在内存中清除。通过cache()函数将计算后的RDD缓存在内存中。
   RDD的两种操作算子
       对于RDD可以有两种计算操作算子：Transformation（变换）与Action（行动）。
       1、Transformation（变化）算子
           Transformation操作是延迟计算的，也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行，需要等到有Actions操作时才真正触发运算。
       2、Action（行动）算子
           Action算子会触发Spark提交作业（Job），并将数据输出到Spark系统。
   RDD的重要内部属性
       1、分区列表。
       2、计算每个分片的函数。
       3、对父RDD的依赖列表。
       4、对Key-Value数据类型RDD的分区器，控制分区策略和分区数，
       5、每个数据分区的地址列表（如HDFS上的数据块的地址）。

   Spark数据存储的核心是弹性分布式数据集（RDD）。RDD可以被抽象的理解为一个大的数组（Array），但这个数组是分布在集群上的。逻辑上RDD的每个分区叫一个Partition。在Spark的执行过程中，RDD经历一个个的Transformation算子之后，最后通过Action算子进行触发操作。逻辑上每经历一次变换，就会将RDD转换为一个新的RDD，RDD之间通过Lineage产生依赖关系。这个关系在容错中有很重要的作用。变换的输入和输出都是RDD。RDD会被划分成很多的分区分布到集群的多个节点中。分区是个逻辑概念，变换前后的新旧分区在物理上可能是同一块内存存储。这是很重要的优化，以防止函数式数据不变性（Immutable）导致的内存需求无限扩张。有些RDD是计算的中间结果，其分区并不一定有相应的内存或磁盘数据与之对应，如果要迭代使用数据，可以调用cache()函数缓存数据。
   在物理上，RDD对象实质上是一个元数据结构，存储着Block、Node等的映射关系和其他元数据信息。一个RDD就是一组分区，在物理数据存储上，RDD的每个分区对应的就是一个Block，Block可以存储在内存，当内存不够的时候可以存储到磁盘上。每个Block中存储着RDD所有数据项的一个子集，暴露给用户的可以是一个Block的迭代器（例如用户可以通过mapPartitions获得分区迭代器进行操作），也可以就是一个数据项（例如通过map函数对每个数据项进行并行计算）。如果是从HDFS等外部存储作为输入数据源，数据按照HDFS中的数据分布策略进行数据分区，HDFS中的一个Block对应SPark的一个分区。同事Spark支持重分区，数据通过Spark默认的或者用户自定义的分区器决定数据块分布在那些节点。例如：支持hash分区（按照数据项Key值取hash值，hash值相同的元素放入同一个分区内）和Range分区（将属于同一数据范围的数据放入同一分区）的策略。

时间： 2024-11-09 19:26:16

Spark-RDD简介

Spark-RDD简介的相关文章

Spark RDD使用详解1--RDD原理

Spark RDD理解

Spark RDD、DataFrame和DataSet的区别

Spark RDD解密

Spark3000门徒第14课spark RDD解密总结

Spark RDD Transformation 简单用例（一）

【spark 深入学习 03】Spark RDD的蛮荒世界

Spark RDD整理

通过一系列破坏行为加深对spark RDD 的理解（或者是猜测）（python 版）

Apache Spark RDD之RDD的转换