Spark定制版2：通过案例对SparkStreaming透彻理解三板斧之二

本节课主要从以下二个方面来解密SparkStreaming：

一、解密SparkStreaming运行机制

二、解密SparkStreaming架构

SparkStreaming运行时更像SparkCore上的应用程序，SparkStreaming程序启动后会启动很多job，每个batchIntval、windowByKey的job、框架运行启动的job。例如，Receiver启动时也启动了job，此job为其他job服务，所以需要做复杂的spark程序，往往多个job之间互相配合。SparkStreaming是最复杂的应用程序，如果对SparkStreaming了如指掌的话，做其他的Spark应用程序没有任何问题。看下官网：Spark sql，SparkStreaming，Spark ml，Spark graphx子框架都是后面开发出来的，我们要洞悉Spark
Core 的话，SparkStreaming是最好的切入方式。

进入Spark官网，可以看到SparkCore和其他子框架的关系：

SparkStreaming启动后，数据不断通过inputStream流进来，根据时间划分成不同的job、就是batchs of input data，每个job有一序列rdd的依赖。Rdd的依赖有输入的数据，所以这里就是不同的rdd依赖构成的batch，这些batch是不同的job，根据spark引擎来得出一个个结果。DStream是逻辑级别的，而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作，转过来是对其内部的RDD操作。

我是使用SparkCore 编程都是基于rdd编程，rdd间有依赖关系，如下图右侧的依赖关系图，SparkStreaming运行时，根据时间为维度不断的运行。Rdd的dag依赖是空间维度，而DStream在rdd的基础上加上了时间维度，所以构成了SparkStreaming的时空维度。

SparkStreaming在rdd的基础上增加了时间维度，运行时可以清晰看到jobscheduler、mappartitionrdd、shuffledrdd、blockmaanager等等，这些都是SparkCore的内容，而DStream、jobgenerator、socketInputDstream等等都是SparkStreaming的内容，如下图运行过程可以很清晰的看到：

现在通过SparkStreaming的时空维度来细致说明SparkStreaming运行机制

时间维度：按照固定时间间隔不断地产生job对象，并在集群上运行：

　　　　　包含有batch interval,窗口长度，窗口滑动时间等

空间维度：代表的是RDD的依赖关系构成的具体的处理逻辑的步骤，是用DStream来表示的：

　　　　1、需要RDD,DAG的生成模板

　　　　2、TimeLine的job控制器、

　　　　3、InputStream和outputstream代表的数据输入输出

　　　　4、具体Job运行在Spark Cluster之上，此时系统容错就至关重要

　　　　5、事务处理，在处理出现奔溃的情况下保证Exactly once的事务语义一致性

随着时间的流动，基于DStream Graph不断生成RDD Graph,也就是DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给Spark Cluster不断的执行，

由上图可知，RDD 与 DStream之间的关系如下：

　　1、RDD是物理级别的，而 DStream 是逻辑级别的；

　　2、DStream是RDD的封装模板类，是RDD进一步的抽象；

　　3、DStream要依赖RDD进行具体的数据计算；

Spark Streaming源码解析

1、StreamingContext方法中调用JobScheduler的start方法：

　　val ssc = new StreamingContext(conf, Seconds(5))

　　val lines = ssc.socketTextStream("Master", 9999)

　　......//业务处理代码略

　　ssc.start()

　　ssc.awaitTermination()

我们进入JobScheduler start方法的内部继续分析：

1、JobScheduler 通过onReceive方法接收各种消息并存入enventLoop消息循环体中。

2、通过rateController对流入SparkStreaming的数据进行限流控制。

3、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker，并且调用JobGenerator和ReceiverTacker的start方法。

ReceiverTacker的启动方法：

1、ReceiverTracker启动后会创建ReceiverTrackerEndpoint这个消息循环体，来接收运行在Executor上的Receiver发送过来的消息。

2、ReceiverTracker启动后会在Spark Cluster中启动executor中的Receivers。

JobGenerator的启动方法：

1、JobGenerator启动后会启动以batchInterval时间间隔发送GenerateJobs消息的定时器

时间： 2024-12-24 21:02:44

Spark定制版2：通过案例对SparkStreaming透彻理解三板斧之二的相关文章

Spark版本定制：通过案例对SparkStreaming透彻理解三板斧之二：解密SparkStreaming运行机制和架构

本期内容: 1.解密Spark Streaming运行机制 2.解密Spark Streaming架构上期回顾: 1.技术界的寻龙点穴,每个领域都有自己的龙脉,Spark就是大数据界的龙脉,Spark Streaming就是Spark的龙血: 2.采用了降维(把时间Batch Interval放大)的方式,进行案例演示实战,得到的结论是:特定的时间内是RDD在执行具体的Job: 一.解密Spark Streaming运行机制和架构运行机制概念: Spark Streaming运行

Spark版本定制版3-通过案例对SparkStreaming透彻理解三板斧之三

本讲内容: a. Spark Streaming Job 架构和运行机制 b. Spark Streaming Job 容错架构和运行机制注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解. 上节回顾: 上节课谈到Spark Streaming是基于DStream编程.DStream是逻辑级别的,而RDD是物理级别的.DStream是随着时间的流动内部将集合封装RDD.对DStream的操作,归根结底还是对其RDD进行的操作. 如果将Spark Stre

Spark版本定制：通过案例对SparkStreaming透彻理解三板斧之一

本期内容: 1 Spark Streaming另类在线实验 2 瞬间理解Spark Streaming本质问:为什么从Spark Streaming来切入spark源码版本订制? Spark最开始的时候并没有Spark Streaming.Spark Sql.Spark ML.Spark R.Spark Graphx等相关的内容,就是很原始的Spark Core,Spark Streaming本身是Spark Core上的一个框架,透过一个框架的彻底研究可以彻底精通spark的方方面面: Sp

第2课：通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming运行机制和架构

本篇博文将从以下几点组织文章: 1. 解密Spark Streaming运行机制 2. 解密Spark Streaming架构一:解密Spark Streaming运行机制 1． DAG生成模板 :DStreamGraph a) Spark Streaming中不断的有数据流进来,他会把数据积攒起来,积攒的依据是以Batch Interval的方式进行积攒的,例如1秒钟,但是这1秒钟里面会有很多的数据例如event,event就构成了一个数据的集合,而RDD处理的时候,是基于固定不变的集合产生

Spark源码定制第一课：通过案例对SparkStreaming透彻理解三板斧之一

第一课:通过案例对SparkStreaming透彻理解三板斧之一:解密SparkStreaming另类实验及SparkStreaming本质解析本期导读: 1 Spark源码定制选择从SparkStreaming入手: 2 Spark Streaming另类在线实验: 3 瞬间理解SparkStreaming本质. 1. 从Spark Streaming入手开始Spark源码版本定制之路 1.1 从Spark Streaming入手Spark源码版本定制之路的理由从

Spark定制版1：通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制,自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框架没有其他的子框架(

Spark发行版笔记1：通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版.自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框

Spark发行版笔记2：通过案例对SparkStreaming透彻理解三板斧之一

本节课主要从以下二个方面来解密SparkStreaming: 一.解密SparkStreaming运行机制二.解密SparkStreaming架构 SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntval.windowByKey的job.框架运行启动的job.例如,Receiver启动时也启动了job,此job为其他job服务,所以需要做复杂的spark程序,往往多个job之间互相配合.SparkS

第1课：通过案例对SparkStreaming 透彻理解三板斧之一

感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制.详细信息请查看联系邮箱[email protected] 电话:18610086859 QQ:1740415547 微信号:18610086859 一为什么从Spark Streaming入手? Spark目前有四个Spark SQL, Spark Streaming, MLlib(machine learning), GraphX(graph), Spark Core是基础,四个框架是建立在基础之上的. 所以

猜你喜欢

Java读取xml文件的四种方法

xml文件: Xml代码 <?xml version="1.0" encoding="GB2312"?> <RESULT> < ...

常用类demo--【J2SE】

StringBuffer类 public class TestStringBuffer{ public static void main(String[] args){ String s=" ...

操作getElementsByTagName返回的元素集合需要注意的细节

学习javascript不仔细还真不行. 如题所说,当你对getElementsByTagName返回的集合中的元素执行删除节点的操作时,集合的length是会变化的,例如 <div id=&q ...

Python3基础 os listdir curdir查看当前工作目录的所有文件的名字

镇场诗: 诚听如来语,顿舍世间名与利.愿做地藏徒,广演是经阎浮提. 愿尽吾所学,成就一良心博客.愿诸后来人,重现智慧清净体.-------------------------------------- ...

java的IO操作之--RandomAccessFile

目标: 1)掌握RandomAccessFile类的作用. 2)用RandomAccessFile读取指定位置的数据. 具体内容 RandomAccessFile类的主要功能是完成随机读取功能,可以读 ...

安装 vs2005, vs2008 报错

最近重新装了系统之后,在安装 vs2005, vs2008 到如下类似的错误,苦苦两天没有解决.不要问为什么是 vs2005,vs2008, 因为原有的项目就是老版本. 无意间在网上看到一句话,大意是 ...

VI设置

通过/etc/vim/vimrc设置vi的基本操作格式. 全局属性通过末行模式输入可临时设置. syntax on ;高亮显示 set tabs ...

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date,这是java.util.Date的子类.查询API后发现可用的方法很少.包含构造只有4 ...

深入理解 JBoss 7/WildFly Standalone 模式启动过程

概述 JBoss 7/WildFly Standalone 模式启动过程大致如下: 启动脚本 standalone.sh 启动 JBoss Modules,JBoss Modules 启动 JBoss ...

而无合适的风格还是打工的方式的核事故

http://www.ebay.com/cln/vagwl0rky/-/168917087014/20150201html http://www.ebay.com/cln/fpcm-9m2l5d ...

数据库课程设计

数据库课程设计是在学生系统的学习了数据库原理课程后,依照关系型数据库的基本原理,综合运用所学的知识,以小组为单位,设计开发一个小型的管理信息系统 (MIS).通过对一个实际问题的分析.设计与实现,将 ...

hibernate笔记

Hibernate的作用: 1.可以解决以面向对象的方式操作数据库的问题请求参数(String)→Strut2→Action(对象)→业务逻辑组件(面向对象) 2.所以任何一个ORM框架都可以代替H ...

POJ 1845

此题需要注意的一个细节时,若MOD|P或MOD|(P-1),此时不能应用费马小定理求逆元的方法. 这时,就要回到求解因子和的初始公式是,即那个等比数列相加的公式.这时,若MOD|P,即,余为1,若MO ...

佩特来项目经验小集合(6)___ASP.NET模板页的读取

在佩特来售后管理系统流程中,其中有一个节点是故障分析,也就是将发回来的整机进行故障分析,传统的方法是将每个整机的故障信息录入一个Excel表,表格Excel样式: 这里是将Excel转换成模板页,然后 ...

Javascript 基础-------this关键字

话说很多同学在刚学Javascript的时候,总会遇到this这个关键字,而它在不同的场景里面,经常指向不同的对象,一下子很容易把初学者给绕晕了.其实理解了其原理,就很清晰的知道this指向了具体的哪 ...

android自动创建生成model或者po文件

在开发过程中发现model或者po层的数据只是参数不同,其他都是一样,而每次编写的时候同样的事情需要花费很多的时间去写或者拷贝.虽然有些能够快速生成,但是还是需要时间,比如Parcelable接口实现 ...

ubuntu下在Ｅclipse中配置ＭonkeyRunner环境

此时本机的环境为: ubuntu系统为:16.04: jdk版本:1.8.0_77 参考的文档有: https://my.oschina.net/yusi/blog/512399?p=1 http:/ ...

【CSAPP】二、信息的表示和处理

三种重要的数字表示:无符号 . 补码 . 浮点数. [一]信息存储最小单位是字节, 在操作系统层面,只需要关注地址.系统将存储器空间划分为更可管理的单元,存放不同的程序对象(程序数据.指令.控制信息 ...

tomcat部署https

在server.xml配置文件中增加证书位置跟密码: <Connector port="443" protocol="org.apache.coyote.http1 ...

Zoj 3545 Rescue the Rabbit(ac自动机+dp)

题目大意: 给出的DNA序列有一个权值,请构造一个长度为I的DNA序列使得在这段DNA序列的权值最大.如果为负数就输出噼里啪啦... 思路分析: 构造序列就是在ac自动机上走,求最大要用到dp dp[ ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.028 s.