第1课：通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析

背景：

使用Spark主要是使用Spark Streaming，Spark Streaming的魔力之所在于：

    1. 流式处理，如今是一个流处理时代，一切与流不相关的都是无效的数据。

    2. 流式处理才是真正的对大数据的印象。Spark Streaming的流式处理非常强大的一个功能是可以在线处理，ML，Spark SQL等流进来的数据，这也是Spark提供的一体化，多元化的技术架构设计带来的优势。

    3. Spark Streaming本身是一个程序，Spark Streaming在处理数据的时候会不断感知数据。所以对构建复杂的Spark应用程序，就极为有参考价值。

在做Spark实验的时候，如果想分析数据的如何流进来，是怎么样被计算的，我们就可以通过Spark Streaming来实现，将batch Interval设置时间非常大，这样里面的很多细节就可以通过log日志观察，这就相当于过去摄影师将李小龙的功夫，然后慢放这样就可以看的更加清晰。

一： Spark Streaming另类在线实验

启动9999端口，往里面追加数据。如下图所示：
Spark Streaming会在设定的时间间隔中不断的循环，接收数据，然后计算，打印如下：
通过master:18080端口查看作业的运行，实质上运行了一个Job，然后web端显示运行了5个Job.为啥这样？继续下去一探究竟！！
先查看Job Id 为0的Job，然后DAG里面的操作我们在实际的代码中并不用这些操作，Spark Streaming在计算的时候会自动的为我们启动一些Job。

第一个Job会在4个Worker上启动，为了负载均衡，这样后续计算的时候，就可以最大化的使用集群资源。
Job Id为1的Job数据接收器Receiver运行了1.5min，而此时的Receiver的启动是通过Job，而Receiver运行在Executor中且以一个Task的方式去接收数据，和普通的Job接收数据没有区别，这样的话，我们就可以在一个Spark Application中启动很多的Job，不同的Job之间可以相互配合，而Spark Streaming默认启动一个Job是Receiver接收数据。因此对于构建复杂的实现奠定了一个非常好的基础，可以根据其扩展满足自己需要的业务逻辑，并且也可以启动多个Receiver.
1. Receiver的Locality Level是PROCESS_LOCAL（内存节点）,Spark Streaming默认接收数据是MEMORY_AND_DISK_2的方式，由此也可以看出，默认情况下如果是小数据的话，Spark默认会将数据放入到内存中.
2. Job Id为2的Job,DAG视图如下：
  
  此时的BlockRDD来自于socketTextStream,实质是InputDStream根据时间间隔产生RDD。
  
  虽然是在一台机器上接收数据的，但是在4个Executor中完成计算的，这样就可以最大化利用集群资源。
  
  二：瞬间理解Spark Streaming本质
  
  Spark Streaming是基于Spark Core上的一个应用程序，可伸缩，高吞吐，容错（这里主要是借助Spark Core的容错方式）处理在线数据流，数据可以有不同的来源，以及同时处理不同来源的数据。Spark Streaming处理的数据可以结合ML和Graph
  
  Spark Streaming本身是随着流进来的数据按照时间为单位生成Job,然后触发Job，再Cluster执行的一个流式处理引擎，本质上说是加上了时间维度的批处理。
3. Spark Streaming支持从多种数据源中读取数据，如Kafka,Flume,HDFS,Kinesis,Twitter等，并且可以使用高阶函数如map,reduce,join,window等操作，处理后的数据可以保存到文件系统，数据库，Dashboard等。
4. Spark Streaming的工作原理
  实时接收数据流，以时间的维度将数据拆分成多个Batch，然后将每个Batch进行计算，最后的结果也是以batch的方式组成的。
5. Spark Streaming提供了一个更高级的抽象，DStream，代表了一个持续不断的数据流，DStream的创建可以通过输入数据源（Kafka,Flume和Kinesis），或者通过算子如（Map,reduce,join,window）,DStream内部就是一系列持续不断产生的RDD。而每个RDD都包含了一个时间段的数据。
6. 对DStream应用算子比如map，其实底层被翻译为DStream中的每个RDD操作，每个DStream执行一个map,都会生成新的DStream,但是在底层实质是对RDD进行map操作，然后产生新的RDD，这个过程是通过Spark Core完成的，Spark Streaming对Spark Core进行了一层封装，隐藏了细节，对开发者提供了方便，易用的API。
  
  对DStream的操作会产生Graph，图中的T1，T2为输入数据，对其进行join,map,foreach等操作，然后产生新的DStream这样就构成了一个Graph，最后在计算的时候会回溯。
  
  Spark Streaming中Job的产生，以时间的维度，不断产生batch，在算子的操作下，不生产新的DStream，内部实质是产生新的RDD，具体在计算的时候，这样就将DStream Graph转成了RRD Graph。然后再有Spark Core引擎计算。

总结：

本次课程在很短的时间内对于Spark Streaming在处理数据的逻辑上有了本质的理解，后续的课程中会将深入理解，这其中的诸多细节过程，真相也会慢慢浮出水平。作为三把斧系列，好戏还在后面！！

本课程笔记来源于：

时间： 2024-10-07 14:12:59

第1课：通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析的相关文章

第1课：通过案例对Spark Streaming透彻理解三板斧之一Spark Streaming另类实验及本质解析

一. 源码定制为什么从Spark Streaming切入? Spark 一开始并没我们今天看到的Spark SQL, Spark Streaming, MLlib(machine learning), GraphX(graph), Spark R等相关内容,只有原始的Spark Core. Spark Streaming本身是Spark Core上的一个框架,透过一个框架的彻底研究肯定可以精通Spark力量的源泉和所有Spark问题的解决之道. Spark现在使用较多的除了Spark Core之

Spark源码定制第一课：通过案例对SparkStreaming透彻理解三板斧之一

第一课:通过案例对SparkStreaming透彻理解三板斧之一:解密SparkStreaming另类实验及SparkStreaming本质解析本期导读: 1 Spark源码定制选择从SparkStreaming入手: 2 Spark Streaming另类在线实验: 3 瞬间理解SparkStreaming本质. 1. 从Spark Streaming入手开始Spark源码版本定制之路 1.1 从Spark Streaming入手Spark源码版本定制之路的理由从

第1课：通过案例对SparkStreaming 透彻理解三板斧之一

感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制.详细信息请查看联系邮箱[email protected] 电话:18610086859 QQ:1740415547 微信号:18610086859 一为什么从Spark Streaming入手? Spark目前有四个Spark SQL, Spark Streaming, MLlib(machine learning), GraphX(graph), Spark Core是基础,四个框架是建立在基础之上的. 所以

Spark发行版笔记2：通过案例对SparkStreaming透彻理解三板斧之一

本节课主要从以下二个方面来解密SparkStreaming: 一.解密SparkStreaming运行机制二.解密SparkStreaming架构 SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntval.windowByKey的job.框架运行启动的job.例如,Receiver启动时也启动了job,此job为其他job服务,所以需要做复杂的spark程序,往往多个job之间互相配合.SparkS

Spark发行版笔记1：通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版.自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框

Spark定制版2：通过案例对SparkStreaming透彻理解三板斧之二

Spark定制版1：通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制,自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框架没有其他的子框架(

第2课：通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming运行机制和架构

本篇博文将从以下几点组织文章: 1. 解密Spark Streaming运行机制 2. 解密Spark Streaming架构一:解密Spark Streaming运行机制 1． DAG生成模板 :DStreamGraph a) Spark Streaming中不断的有数据流进来,他会把数据积攒起来,积攒的依据是以Batch Interval的方式进行积攒的,例如1秒钟,但是这1秒钟里面会有很多的数据例如event,event就构成了一个数据的集合,而RDD处理的时候,是基于固定不变的集合产生

第3课：通过案例对SparkStreaming 透彻理解三板斧之三：解密SparkStreaming运行机制和架构进阶之Job和容错

理解Spark Streaming的Job的整个架构和运行机制对于精通Spark Streaming是至关重要的. 一首先我们运行以下的程序,然后通过这个程序的运行过程进一步加深理解Spark Streaming流处理的Job的执行的过程,代码如下: object OnlineForeachRDD2DB { def main(args: Array[String]){ /* * 第1步:创建Spark的配置对象SparkConf,设置Spark程序的运行时的配置信息, * 例如说通过setMa

定制班第1课：通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析

从今天起,我们踏上了新的Spark学习旅途.我们的目标是要像Spark官方机构那样有能力去定制Spark版本. 我们最开始将从Spark Streaming着手. 为何从Spark Streaming切入Spark版本定制?Spark的子框架已有若干,为何选择Spark Streaming?让我们细细道来. Spark最开始只有Spark Core,没有目前的这些子框架.我们通过对一个框架的彻底研究,肯定可以精通Spark力量的源泉和所有问题的解决之道. 我们再看看目前的这些子框架.Spark