Spark发行笔记8：解读Spark Streaming RDD的全生命周期

本节主要内容：

一、DStream与RDD关系的彻底的研究

二、StreamingRDD的生成彻底研究

Spark Streaming RDD思考三个关键的问题：

RDD本身是基本对象，根据一定时间定时产生RDD的对象，随着时间的积累，不对其管理的话会导致内存会溢出，所以在BatchDuration时间内执行完RDD操作后，需对RDD进行管理。

1、DStream生成RDD的过程，DStream到底是怎么生成RDD的？

2、DStream和RDD到底什么关系？

3、运行之后怎么对RDD处理？

所以研究Spark Streaming的RDD，RDD产生的全生命周期，产生、运行、运行后的管理尤其重要。

源码解读：

温馨提示：广播和计数器并不像看上去简单，在实际的最佳实践中，通过广播和计数器可以实现非常复杂的算法。

看代码逻辑，逻辑是一种想法，上述代码的socketTextStream，就可以想象数据的输入？，数据处理？数据怎么来？

在获得数据后进行一系列的transformations、最后进行foreachRDD的操作。

1、直接用foreachRDD 在这里面直接定义了对action操作，可以直接写对RDD处理的操作函数，如图：

2、从RDD的角度讲，操作DStream 的print函数，其实是转过来操作foreachRDD的print：

在RDD中操作action不会产生新的RDD，DStream和它完全对应，在DStream中操作action不会产生新的DStream。

foreachDStream是transformation操作，在整个Spark Streaming的操作中，foreachDStream不一定会触发job的执行

，但会触发Job的产生。

Job产生由timer产生，根据业务逻辑代码产生，和foreachDStream没什么关系。

1、foreachDStream和Job的执行没有关系，不会触发Job执行。

2、有foreachDStream执行会产生Job是不对的，只根据框架来调度Job的执行。

foreachRDD的代码中对RDD的操作，如果没有action操作则不会执行action的操作。

foreachRDD是Spark Streaming的后门，直接对rdd的操作，背后封装成foreachRDD的操作。

总结：

在Spark Streaming的所有逻辑操作都是对DStream的操作，对DStream的操作其实就是对RDD的操作，DStream是RDD的模板。

后面的DStream对前面的DStream有依赖：

对map操作产生map的DStream：

基于DStream怎么产生rdd？通过batchInterval。研究DStream是怎么生成，看DStream的操作触发RDD的生成。

根据时间实例产生RDDs，和batchDuration对齐的，如：timer实例就是1秒，1秒生成一个RDD，

每个RDD对应一个Job，因为RDD就是DStream操作的时间间隔的最后一个RDD，后面的RDD对前面

的RDD有依赖关系，后面对前面有依赖可以推到出整个依赖链条。

看下官方：

计算从后往前推，计算只需要获取最后一个的RDD的句柄。根据时间从后往前找出

RDD的依赖关系，从而找出对应的空间关系。

看下generateRDD是怎么获取的？

后的rdd和batchDuration对应的rdd，DStream有个getOrComputer方法，根据batchDuration生成rdd的，可以是

缓存或计算级别算出来。

到此处，RDD变量生成了，但是并没有执行，只是在逻辑级别的代码，可以在框架级别进行优化管理。

注意：SparkStreaming实际上在没有输入数据的时候仍然会产生RDD，可以在此处修改源码，提升性能。

感谢王家林老师的知识分享

王家林老师名片：

中国Spark第一人

感谢王家林老师的知识分享

新浪微博：http://weibo.com/ilovepains

微信公众号：DT_Spark

博客：http://blog.sina.com.cn/ilovepains

手机：18610086859

QQ：1740415547

邮箱：[email protected]

YY课堂：每天20:00现场授课频道68917580

时间： 2024-10-12 08:12:32

Spark发行笔记8：解读Spark Streaming RDD的全生命周期的相关文章

Spark版本定制八：Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

本期内容: 1.DStream与RDD关系彻底研究 2.Streaming中RDD的生成彻底研究一.DStream与RDD关系彻底研究课前思考: RDD是怎么生成的? RDD依靠什么生成?根据DStream来的 RDD生成的依据是什么? Spark Streaming中RDD的执行是否和Spark Core中的RDD执行有所不同? 运行之后我们对RDD怎么处理? ForEachDStream不一定会触发Job的执行,但是它一定会触发job的产生,和Job是否执行没有关系: 对于DStream

Spark 定制版：008~Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

本讲内容: a. DStream与RDD关系的彻底的研究 b. Streaming中RDD的生成彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解. 上节回顾上节课,我们重点给大家揭秘了JobScheduler内幕:可以说JobScheduler是整个Spark Streming的调度的核心,其地位相当于Spark Core中的DAGScheduler. JobScheduler是SparkStreaming 所有Job调度的中心,内部有两个重

spark内核揭秘-09-RDD的count操作触发Job全生命周期-02

接着上一篇文章继续分析代码: 3.1.3.3.3.1.进入TaskSet 方法: 3.1.3.3.3.2.进入taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties)) 方法: 从源代码中可以看出DAGScheduler中向TaskScheduler以Stage为单位提交任务,Stage是以TaskSet为单位的,构建一个TaskSet

spark内核揭秘-09-RDD的count操作触发Job全生命周期-01

RDD源码的count方法: 从上面代码可以看出来,count方法触发SparkContext的runJob方法的调用: 进入 runJob(rdd, func, 0 until rdd.partitions.size, false)方法: 进一步跟踪runJob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal)方法: 继续跟踪进入runJob[T, U](rdd, func

Spark发行版笔记10：Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考

本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Driver在不同进程,Receiver接收数据后要不断给Deriver汇报. 因为Driver负责调度,Receiver接收的数据如果不汇报给Deriver,Deriver调度时不会把接收的数据计算入调度系统中(如:数据ID,Block分片). 思考Spark Streaming接收数据: 不断有循环器接收

Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

一:Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job. 2. Receiver属于Spark Streaming应用程序启动阶段,那么我们找Receiver在哪里启动就应该去找Spark Streaming的启动. 3. Receivers和InputDStreams是一一对应的,默认情况下一般只有一个Receiver.

第9课：Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

Spark 定制版：009~Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

本讲内容: a. Receiver启动的方式设想 b. Receiver启动源码彻底分析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解. 上节回顾上一讲中,我们给大家具体分析了RDD的物理生成和逻辑生成过程,彻底明白DStream和RDD之间的关系,及其内部其他有关类的具体依赖等信息: a. DStream是RDD的模板,其内部generatedRDDs 保存了每个BatchDuration时间生成的RDD对象实例.DStream的依赖构成了RDD

Spark发行版笔记9：Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考

本节的主要内容: 一.Receiver启动的方式设想二.Receiver启动源码彻底分析 Receiver的设计是非常巧妙和出色的,非常值得我们去学习.研究.借鉴. 在深入认识Receiver之前,我们有必要思考一下,如果没有Spark.Spark Streaming,我们怎么实现Reciver?数据不断接进来,我们该怎么做?该怎么启动Receiver呢?...... 首先,我们找到数据来源的入口,入口如下: 数据来源kafka.socket.flume等构建的都是基于InputDStream