通过案例对SparkStreaming透彻理解三板之二

1.解密Spark Streaming运行机制

2.解密Spark Streaming架构

I.Spark Core是基于RDD形成的,RDD之间都会有依赖关系,Spark
Streaming在RDD上的时间维度,DStream就是在RDD的基础之上加上了时间维度。DStream就是RDD的模板,随着时间的流逝不断地实例化DStream,以数据进行填充DStream
Graph,静态的RDD DAG模板,这个模板就是DStream Graph,

II.基于DStream
的依赖构造成DStream Graph是RDD DAG的模板

Dstream是RDD的模板,随着DStream的依赖关系构成Dstream
Graph

III.DStream是逻辑级别,RDD是物理级别

@transient

private[streaming]
var generatedRDDs
= new
HashMap[Time,
RDD[T]] ()

Dstrem就是在RDD的基础上加上了时间的维度所以整个SparkStreaming就是时空维度

DStream的compute需要传入一个时间参数,通过时间获取相应的RDD,然后再对RDD进行计算


/** Method that generates a RDD for the given time */

def compute(validTime: Time): Option[RDD[T]]

我们查看SparkStreaming的运行日志,就可以看出和RDD的运行几乎是一致的:

动态的job控制器会根据我们设定的时间间隔收集到数据,让静态的Dstream Graph活起来变成RDDGraph

如果数据处理不过来,就可以限流,Spark Streaming在运行的过程中可以动态地调整自己的资源,CPU

备注:

1、DT大数据梦工厂微信公众号DT_Spark

2、IMF晚8点大数据实战YY直播频道号:68917580

3、新浪微博: http://www.weibo.com/ilovepains

时间: 2024-10-21 03:20:06

通过案例对SparkStreaming透彻理解三板之二的相关文章

Spark版本定制:通过案例对SparkStreaming透彻理解三板斧之二:解密SparkStreaming运行机制和架构

本期内容: 1.解密Spark Streaming运行机制 2.解密Spark Streaming架构 上期回顾: 1.技术界的寻龙点穴,每个领域都有自己的龙脉,Spark就是大数据界的龙脉,Spark Streaming就是Spark的龙血: 2.采用了降维(把时间Batch Interval放大)的方式,进行案例演示实战,得到的结论是:特定的时间内是RDD在执行具体的Job: 一.解密Spark Streaming运行机制和架构 运行机制概念:       Spark Streaming运行

Spark定制版2:通过案例对SparkStreaming透彻理解三板斧之二

本节课主要从以下二个方面来解密SparkStreaming: 一.解密SparkStreaming运行机制 二.解密SparkStreaming架构 SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntval.windowByKey的job.框架运行启动的job.例如,Receiver启动时也启动了job,此job为其他job服务,所以需要做复杂的spark程序,往往多个job之间互相配合.SparkS

第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制和架构

本篇博文将从以下几点组织文章: 1. 解密Spark Streaming运行机制 2. 解密Spark Streaming架构 一:解密Spark Streaming运行机制 1. DAG生成模板 :DStreamGraph a) Spark Streaming中不断的有数据流进来,他会把数据积攒起来,积攒的依据是以Batch Interval的方式进行积攒的,例如1秒钟,但是这1秒钟里面会有很多的数据例如event,event就构成了一个数据的集合,而RDD处理的时候,是基于固定不变的集合产生

Spark源码定制第一课:通过案例对SparkStreaming透彻理解三板斧之一

第一课:通过案例对SparkStreaming透彻理解三板斧之一:解密SparkStreaming另类实验及SparkStreaming本质解析 本期导读: 1 Spark源码定制选择从SparkStreaming入手: 2 Spark Streaming另类在线实验: 3 瞬间理解SparkStreaming本质. 1.    从Spark Streaming入手开始Spark源码版本定制之路 1.1           从Spark Streaming入手Spark源码版本定制之路的理由 从

Spark发行版笔记1:通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验 二.瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版.自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框

Spark定制版1:通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验 二.瞬间理解SparkStreaming本质 Spark源码定制,自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框架没有其他的子框架(

Spark版本定制第1天:通过案例对SparkStreaming透彻理解之一

本期内容: 1 Spark Streaming另类在线实验 2 瞬间理解Spark Streaming本质 在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下.这里选择Spark Streaming作为版本定制的切入点也是大势所趋. 小技巧:将Batch interval放大,相当于看到了Streaming的慢放版本,可以更清楚它的各个环节,这里以黑名单过滤程序

通过案例对SparkStreaming透彻理解之一

本期内容: 1 Spark Streaming另类在线实验 2 瞬间理解Spark Streaming本质 在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的 诸如SQL,MLlib等强大框架,它必将一统天下.这里选择Spark Streaming作为版本定制的切入点也是大势所趋. 小技巧:将Batch interval放大,相当于看到了Streaming的慢放版本,可以更清楚它的各个环节,这里以黑名单过滤程

Spark版本定制版3-通过案例对SparkStreaming透彻理解三板斧之三

本讲内容: a. Spark Streaming Job 架构和运行机制 b. Spark Streaming Job 容错架构和运行机制 注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解. 上节回顾: 上节课谈到Spark Streaming是基于DStream编程.DStream是逻辑级别的,而RDD是物理级别的.DStream是随着时间的流动内部将集合封装RDD.对DStream的操作,归根结底还是对其RDD进行的操作. 如果将Spark Stre