Spark RDD揭秘



Spark计算中提供的各种库例如:spark sql,spark
machine learning等的底层都是封装的RDD

RDD本身提供了通用的抽象,在现有的spark sql, spark streaming, machine learning,图计算以及sqpark
R中,可以根据具体的领域的内容为基础扩充和私有化与自己业务相关的库,而它们的通用接口和基石就是Spark RDD.

RDD:基于工作集的分布式函数编程的应用抽象,MapReduce是基于数据集的。他们的共同特征是位置感知,容错以及负载均衡。基于数据集的处理的工作方式是从物理存储设备上,加载数据,然后操作数据,最后写入物理存储设备中,但它却包括很多不适用的场景:1.不适合于大量的迭代
2.不适合交互式的查询,每次查询都要从磁盘上读取数据,然后写回数据结果,如果复杂的查询有多个步骤,则需要多次基于磁盘,这还仅仅是速度的影响。重点是技术数据流的方式,不能复用曾经的结果或者中间的计算结果,这才是致命的,例如有几千人并发操作一个数据仓库,假如有一百人的查询完全是一样的,它还是会重新加载数据,重新查询。然而基于工作集的方式是会对结果复用,复用中间的计算结果,就是前面的10个步骤是一样的,算过的,数据集是不会复用的,而基于工作集的方式是会进行复用的。而RDD(Resillient
Distributed Dataset)是基于工作集的,工作集的方式具有以下几大弹性:1.自动的进行内存和磁盘数据存储的切换。

2.基于Lineage的高效容错,3.Task如果失败会自动进行特定次数的重试。4.Stage如果失败会自动进行特定次数的重试,而且重试的时候只会计算失败的分片。
5.checkpoint和persist,链条比较长,计算比较笨重的时候,我们把数据都放在磁盘/HDFS上,这是checkpoint,而persist,是在内存中或者磁盘中对数据进行复用。这是效率和容错的延伸点。6.数据调度弹性,DAG
TASK和资源管理无关。7:数据分片的高度弹性,如计算过程中会产生很多数据碎片,这时partition就特别小。每次都消耗一个线程去处理的话,这会降低处理效率。这时会考虑把多个partion合并成一个大的partition提升效率。另一方面,内存不是那么多的时候,但是partition数据比较大时,数据block比较大。会考虑把它变成更小的分片,这样会让spark有更多的处理批次,但是不会出现OOM。这样数据分片,我们可以人工提高并行度,降低并行度,是弹性的高度体现,而且它完全有数据的本地性(引用于DT_SPARK大数据梦工厂,IMF公开课)

而从一万个分片变成10万个分片,则一般可能需要shuffle。RDD本身容许用户在执行多个查询时,显示的将工作集缓存在内存中。以后其它人来查询就可以重用工作集。自然极大提升查询速度。

提示:spark的位置感知比hadoop的位置感知好很多,Hadoop进行partition的时候,就不管位置在那里,spark进行partition的时候,进行下一步stage操作,是会确定这个位置的,它更精致化。

  1. Spark Streaming为什么老是用checkpoint,因为经常要用到以前的东西,假设Spark如果有1000个RDD,一般不会产生1000个中间结果。假设Stage内部有一千个步骤,它中间不会产生999次中间结果,默认情况下,它只是产生一次中间结果,而hadoop会产生1000次中间结果。

    由于Spark的RDD它本身是只读分区的集合,但又为了应对它只对数据标记,不做计算的计算模型,所以它是lazy级别的,所以每次transformation构建的新的RDD,也都是以父RDD为自己的第一个参数传进去的,由此构成了一个链条,在计算的由最后action的时候再触发,所以只有一个中间结果,这就构成了一个从后往前回溯的过程,就是一个函数展开的过程,从源码也可以看到它是这种从后往前回溯的链条依赖关系,从源码也看到它是这种从后往前的链条依赖关系,所以它容错的开销会非常低。因为常规的容错方式有:1.数据检查点(它的工作方式要通过数据中心的网络连接不同的机器,每次操作的时候都要复制整个数据集,每次都有一个拷贝,是要通过网络的,因为要复制到其他机器上,而宽带就是分布式的瓶颈,这对存储资源也是非常大的消耗)
    2.记录数据的更新(每次数据变化了,我们都记录下来,但这个第一复杂,第二耗性能,重算的时候比较难处理),既然这么多缺点,Spark为什么在记录数据更新上就这么高效了)RDD是不可变的所以每次操作就会变成新的RDD
    + lazy,不存在全局修改的问题,控制难度极大的下降,又产生了链条,可以很方便的容错。2.是粗粒度模式,最简单等待想,RDD就是一个List或者Array,RDD是分布式函数式编程的抽象,基于RDD编程一般都采用高级函数。

    3.Stage结束,数据会写磁盘,是粗粒度模式,是为了效率,为了简化,如果是更新粒度太细太多,记录成本非常高,效率就不是那么高了,对RDD的具体的数据的改变操作(写操作)都是粗粒度的。RDD的写操作是粗粒度的(限制了它的使用场景,网络爬虫这件事就不适合RDD去做),但是RDD的读操作,既可以是粗粒度的也可以是细粒度的。Partition本身是一个很普通的数据结构,指向我们的具体的数据本身,即计算时就知道数据在那里。而且这系列的数据分片的计算逻辑都是一样的。(来源于王家林老师的RDD揭秘)

    4:compute为什么所有RDD操作返回的都是迭代器,好处是让所有框架进行无缝集成,结果流的处理,机器学习都可以互调,无论是机器学习操作sql,还是sql操作机器学习,还是流处理操作图计算,还是流处理操作sql,大家都是基于RDD,只要你是RDD,就可以互相调用

    第2点,又有可以调用子类的具体东西,所以是不是流处理可以直接调用机器学习的具体功能去训练。因为有this.type(),所以可以通过运行时runtime,来具体把实际的实例赋值给RDD,你转过来就可以去操作它,这样使用了接口,还能调用接口下面的子类。

    5:Scala中使用了接口,还能调用接口下面的子类。无缝集成的基础上,可以使用各自的功能。产生核裂变:如果我是做金融方面的,开发了一个金融类的子框架,子框架可以直接在代码中调机器学习,调图计算进行什么分享预测,行为分析,模式分析。也可以调sql进行数据挖掘。你写了个子框架,遵循RDD的规范,机器学习转过来可以调用我的金融框架。因为无缝集成,写个电商框架也可以调金融框架,每增强一个,可以让所有的增强。每提出一个新的框架,都可以使用其它所有的功能。

    6:由于有了PreferedLocation,Spark可以处理一切数据,每次都符合完美的数据本地性,Spark就是要做一体化多元化的数据处理框架,不仅仅只是大数据。兼容一切文件系统,一切操作系统,一切文件格式。任何格式的数据,第一计算更快,第二使用更简单,但是Spark做实时事务性处理,反应没那么快,控制难度大。如银行转账,做实时处理是可以的,除此之外,Spark要一统数据处理的天下!

    7:RDD的弊端:目前不支持细粒度的写操作(如网络爬虫)以及增量迭代计算(每次迭代的时候,只迭代其中的一部分数据,本身粗粒度,不能很好的支持增量迭代

    以上内容准来自于DT大数据梦工厂学习,梦想导师王家林,转载请注明出处,谢谢合作

    本节视频分享:http://pan.baidu.com/s/1hsQ2vv2   RDD解密

时间: 2024-08-21 17:48:59

Spark RDD揭秘的相关文章

Spark RDD、DataFrame和DataSet的区别

版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销 频繁的创建和销毁对象, 势必会增加GC import org.apache.spark.sql.SQLContext import org.apache

Spark RDD解密

1.  基于数据集的处理: 从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景: 不适合于大量的迭代: 不适合交互式查询:每次查询都需要对磁盘进行交互. 基于数据流的方式不能够复用曾经的结果或者中间的结果; 2. RDD弹性数据集 特点: A)自动的进行内存和磁盘数据的存储切换: B) 基于lineage的高效容错: C) Task如果失败会自动进行重试 D) Stage如果失败会自动进行重试,而且只会计算失败的分片; E) Checkpoint和pers

Spark3000门徒第14课spark RDD解密总结

今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下: Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用. 位置感知:spark比hadoop更精致. RDD是lazy的,是分布式函数式编程的抽象,RDD可以看做一个只读的List或者Array.产生的中间结果怎么办? 不能让 他立即计算,采用Lazy级别,只对数据处理做标记.所以RDD操作是有向的,链式的,所以Stage有1000个步骤,不

Spark RDD Transformation 简单用例(一)

map(func) /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U]  map(func) Return a new distributed dataset formed by passing each element of the source through a function func.  将原RDD中的

【spark 深入学习 03】Spark RDD的蛮荒世界

RDD真的是一个很晦涩的词汇,他就是伯克利大学的博士们在论文中提出的一个概念,很抽象,很难懂:但是这是spark的核心概念,因此有必要spark rdd的知识点,用最简单.浅显易懂的词汇描述.不想用学术话的语言来阐述RDD是什么,用简单.容易理解的方式来描述. 一.什么是RDD,RDD出现的背景 Mapreduce计算模型的出现解决了分布式计算的诸多难题,但是由于MR对数据共享的解决方案比较低效,导致MR编程模型效率不高,将数据写到一个稳定的外部存储系统,如HDFS,这个会引起数据复写.磁盘IO

Spark RDD整理

参考资料: Spark和RDD模型研究:http://itindex.net/detail/51871-spark-rdd-模型 理解Spark的核心RDD:http://www.infoq.com/cn/articles/spark-core-rdd/ Spark RDD详解:http://f.dataguru.cn/thread-475874-1-1.html http://developer.51cto.com/art/201309/410276_1.htm

通过一系列破坏行为加深对spark RDD 的理解(或者是猜测)(python 版)

这个实验由一个实验案例产生,实验中,需要对一个数据集进行维护,其中有一个需要对数据一条条进行插入: 下面是最二的写法: rdd=sc.parallelize([-1]) for i in range(10000): rdd=rdd.union(sc.parallelize([i])) 每次插入数据,新建一个rdd,然后union. 后果是: java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache.spark.rdd

Apache Spark RDD之RDD的转换

RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的实现过程. Spark Scala版本的Word Count程序如下: 1: val file = spark.textFile("hdfs://...") 2: val counts = file.flatMap(line => line.split(" "))

Spark RDD API详解(一)(转)

RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组 的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理.因此,Spark应用程序所做的无非是把需要 处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果.本文为第一部分,将介绍Spark RDD中与Map和Reduce相关的API中. 如何创建RDD? RDD可以从普通数组创建出