spark发行版笔记13

本期概览：

ReceiverTracker架构设计

消息循环系统

ReceiverTracker具体的实现

Spark Streaming作为Spark Core基础架构之上的一个应用程序，其中的ReceiverTracker接收到数据之后，具体该怎么进行数据处理呢？

为了弄清楚这个问题，首先，我们打开源码

找到ReceiverSupervisorImpl这个类

从源码中可以看出，写数据是通过ReceivedBlockHandler的对象receivedBlockHandler写的。写的过程中有俩种方式，一种是基于WAL方式进行容错写。一种是直接写（相对不安全）。如下图所示

然后存储数据完成后并报告给Driver,以便Driver对元数据进行存储，如下所示

用于汇报给Driver的消息类、如下图所示

上图谈到了Record,要注意到，一般专业的描述处理的数据的大小的时候，应该用多少条记录来描述更科学，一般说数据规模达到多少多少百亿条记录，而不是说数据规模达到多少PB的数据规模，这样不是很科学，因为记录可能有很多字段，比如说，1PB的数据，5个字段，和5PB的数据1个字段是差不多的。所以1PB的数据规模未必比5PB的数据规模体现出一个大数据引擎的数据处理能力。也比如说，有些数据是视频或者音频。更不适合说多少个PB来描述规模大小。

上图说明ReceiverSupervisorImpl中有ReceiverTracker的通信体，能进行与ReceiverTracker的通信

并且ReceiverSupervisorImpl将数据的元数据信息汇报给ReceiverTracker

于是，我们进入ReceiverTracker这个类，这个类是整个流处理数据管理的中心。

ReceiverTracker中有endpoint通信体，这个通信体接收来自ReceiverSuperVisorImpl的元数据的数据汇报。

接下来，我们再进入ReceiverTracker本身，从整体上认识ReceiverTracker。

记录Receiver的三种状态，分别为非活跃状态，正在执行调度任务状态，活跃状态

密封关键字，说明所有的子类都密封在这里，方便管理

/**

* This message will trigger ReceiverTrackerEndpoint to restart a Spark job for the receiver.

*/

这个消息用来告知为receiver启动一个job， ReceiverTracker有很多这样的case class用于通信。

private[streaming] case class RestartReceiver(receiver: Receiver[_])

extends ReceiverTrackerLocalMessage

再比如此类相同的消息

/**

* This message will trigger ReceiverTrackerEndpoint to send stop signals to all registered

* receivers.

*/

private[streaming] case object StopAllReceivers extends ReceiverTrackerLocalMessage

注意：param skipReceiverLaunch Do not launch the receiver. This is useful for testing.，如下图

简单的来说，ReceiverTracker可以简单的说包括Receiver的数据的启动接收，管理，回收三个过程。

事先来个预告，我们将把Streaming流处理的所有的代码一行行的过滤，讲整个streaming通过一滴水看世界。

所有的输入流都会交给grapx对象，因为该对象会将所有的待调度的数据统一调度。

内部还有一个成员叫做ReceiverBlockTracker

ListenerBus非常的重要，后续我们会重点分析ListenerBus的源代码，它在监控层面起着重要的作用。

在这里，可以看出ReceiverTracker的状态有如下的4种状态，分别为

初始化，开始，正在停止中，停止了。

接收到ReceiverSuperVisorImpl远程发送过来的消息之后进行处理的过程在此。

这也是今天的重点之一。

先写日志后再进行下一步操作，这里是出于容错的原因考虑的。

注意：这里如果指定了checkpoint目录的话，才会使得isWriteAheadLogEnabled为true.

ReceivedBlockTrackerLogEvent其实就是元数据信息。

用一个HashMap结构将Stream 与 BlockQueue中的Block一一对应，可谓是真的巧妙到了极点。

再回到我们的消息通信层面。

回复对方，告知对方，addBlock成功。并且保存有数据的元数据信息。

ReceivedBlockTracker类的主要的任务在于将Block分配给没有分配Block的Stream batch。

这是具体分配Block给batch的代码。

这里说明具体的分配是以batch time为单位分配的.

再次看看消息通信体。

这里说启动所有的Receiver.

启动所有的receiver

这样，整个数据接收的环节就打通了。

最后做点补充：

该阶段是CleanupOldBlocks阶段，此时将发送消息给ReceiverSuperVisorImpl，从而让它执行cleanUpOldBlocks方法。

/** Update a receiver‘s maximum ingestion rate */

最后stopAllReceivers，结束了。

?

时间： 2024-08-01 10:44:59

spark发行版笔记13的相关文章

Spark发行版笔记13：Spark Streaming源码解读之Driver容错安全性

本节的主要内容: 一.ReceivedBlockTracker容错安全性二.DStreamGraph和JobGenerator容错安全性从数据层面,ReceivedBlockTracker为整个Spark Streaming应用程序记录元数据信息. 从调度层面,DStreamGraph和JobGenerator是Spark Streaming调度的核心,记录当前调度到哪一进度,和业务有关. ReceivedBlockTracker在接收到元数据信息后调用addBlock方法,先写入磁盘中,然

spark发行版笔记9

感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 1 Receiver生命全周期首先,我们找到数据来源的入口,入口如下 Receiver的设计是极其巧妙的.它的设计非常的出色,很多的地方都值得我们认真的学习. 在深入认识Receiver之前,我们有必要思考一下,假如没有spark,我们可以尝试思考一下,Receiver不断的接受输入进来的数据,如果是我们来做,我们该怎么做?该怎么启动Receiver呢? 我们尝试从以下几个方向来假设思考. 方式如下

spark发行版笔记10

感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 数据接收全生命周期的思考大数据处理框架中,最重要的就是性能,性能是排在前面的.其次再考虑其他的.因为数据量大,一不小心的多余的操作,几分钟,十几分钟就过去了. 根据一般的架构设计原则,接收数据和存储数据是不同的对象来完成的. Spark Streaming数据接收全生命周期可以看成是一个MVC模式,ReceiverSupervisor相当于是控制器(c),Receiver(v) 首先启动的是Rece

spark发行版笔记4Spark Streaming事务处理彻底掌握

Spark Streaming事务处理彻底掌握感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制. 内容概括: 1Exactly once 2 输出不重复 1 正如银行转账业务一样,如果你给一个朋友转账一次,银行的系统必须保证此次的转账数据有且只能处理一次,不能出现另外的情况.事务的意思就是保证数据有且只能处理一次. 而Spark Streaming流处理在事务处理方面也是做得非常好的,并且这一部分内容也是非常重要的. 所谓一图胜千言,我们就来画一张图吧. 整个数

Spark发行版笔记1：通过案例对SparkStreaming透彻理解三板斧之一

本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版.自己动手改进Spark源码,通常在电信.金融.教育.医疗.互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制.扩展Spark的功能,满足公司的业务需要. 选择SparkStreaming框架源码研究.二次开发的原因 1.Spark起初只有Spark Core基础框

spark发行版笔记11

本期概览: ReceiverTracker架构设计消息循环系统 ReceiverTracker具体的实现 Spark Streaming作为Spark Core基础架构之上的一个应用程序,其中的ReceiverTracker接收到数据之后,具体该怎么进行数据处理呢? 为了弄清楚这个问题,首先,我们打开源码找到ReceiverSupervisorImpl这个类从源码中可以看出,写数据是通过ReceivedBlockHandler的对象receivedBlockHandler写的.写的过程中

Spark发行版笔记10：Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考

本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Driver在不同进程,Receiver接收数据后要不断给Deriver汇报. 因为Driver负责调度,Receiver接收的数据如果不汇报给Deriver,Deriver调度时不会把接收的数据计算入调度系统中(如:数据ID,Block分片). 思考Spark Streaming接收数据: 不断有循环器接收

Spark发行版笔记2：通过案例对SparkStreaming透彻理解三板斧之一

本节课主要从以下二个方面来解密SparkStreaming: 一.解密SparkStreaming运行机制二.解密SparkStreaming架构 SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntval.windowByKey的job.框架运行启动的job.例如,Receiver启动时也启动了job,此job为其他job服务,所以需要做复杂的spark程序,往往多个job之间互相配合.SparkS

Spark发行版笔记9：Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考

本节的主要内容: 一.Receiver启动的方式设想二.Receiver启动源码彻底分析 Receiver的设计是非常巧妙和出色的,非常值得我们去学习.研究.借鉴. 在深入认识Receiver之前,我们有必要思考一下,如果没有Spark.Spark Streaming,我们怎么实现Reciver?数据不断接进来,我们该怎么做?该怎么启动Receiver呢?...... 首先,我们找到数据来源的入口,入口如下: 数据来源kafka.socket.flume等构建的都是基于InputDStream

猜你喜欢

java swing示例

该范例主要是JFrame(框架)和Jpanel(画板),在Jpanel容器上添加控件,然后再把Jpanel放进JFrame的容器里面. FrameDemo.java import java.awt.D ...

Django REST框架

安装安装使用pip,包括您想要的任何可选包... pip install djangorestframework pip install markdown # Markdown ...

1.导入jar包 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api< ...

NIO

1 /** 2 * Server,NIO本质是非阻塞. Selector SelectionKey ServerSocketChannel SocketChannel 3 */ 4 public cl ...

图像修复项目《问题一》

首先,我们项目研究的时关于图像修复的快速算法,当然是基于前人基础的提出改进的算法.现在研究的一篇论文是Mingqiang Zhu的一篇论文<An Efficient Primal-Dual Hy ...

C#：读取视频的宽度和高度等信息

读取方式:使用ffmpeg读取,所以需要先下载ffmpeg.网上资源有很多. 通过ffmpeg执行一条CMD命令可以读取出视频的帧高度和帧宽度信息. 如图: 蓝线框中可以看到获取到的帧高度和帧宽度. ...

web典型应用2

项目应用三:定义项目初始化文件和入口项目应用四:完成注册功能项目应用五:封装数据库连接文件项目应用六:完成登录功能 ==判断数据的合法性,密码和用户名的空值,或者用户名不存在或密码不正 ...

手把手教你画AndroidK线分时图及指标

先废话一下:来到公司之前,项目是由外包公司做的,面试初,没有接触过分时图k线这块,觉得好难,我能搞定不!但是一段时间之后,发现之前做的那是一片稀烂,但是这货是主功能啊,迟早的自己操刀,痛下决心,开搞, ...

Python网络编程day-1[异常处理,socket]

异常处理: 错误: 1.语法错误:程序运行检测到语法错误会直接抛出,并终止程序运行. 2.逻辑错误:程序在运行中遇到逻辑错误,系统会询问程序是否处理异常,程序没有处理系统会抛出异常,并终止程序运行. ...

设计模式之6大设计原则全新解读

一.“单一职责”原则(Single Respnsibility Principle) SRP 单一职责原则的定义是:应该有且仅有一个原因引起类的变更. 单一职责原则的好处: 1.类的复杂性降低,实现什 ...

第一、二天笔记

早上: 1:重点在于开发环境的设置(3课时) 2:编程基础(2课时): 3:Java语言介绍.main函数.类文件介绍笔记: 1:常用的DOS命令 A:盘符切换盘符: 然后回车 B:列出当前目录下 ...

Android修改TitleBar标题栏详解

最近项目中把一个activity的theme设成了Dialog弹出框样式,发现标题栏高度和字体都太小,于是查了相关的资料和源码,总结了修改方法.高度是通过修改android:windowTitleSi ...

python 列表生成器

python 列表生成器列表生成式即List Comprehensions,是Python内置的非常简单却强大的可以用来创建list的生成式. 一个循环在C语言等其他语言中,for循环一般是这样的 ...

的決定吧這是不是說明大

的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的決定吧這是不是說明大的 ...

linux命令：chroot ldd init系统启动流程,修改启动背景图

Linux系统启动流程 POST(该过程主要检测服务器硬件所有硬件设备)-->BIOS(Boot顺序,系统引导顺序,从哪个设备引导)-->MBR引导文件存储空间(内含有bootlocade ...

HW6.2

1 import java.util.Scanner; 2 3 public class Solution 4 { 5 public static void main(String[] args) 6 ...

利用postfix让PHP的mail函数生效

以ubuntu为例修改php.ini,如果是php-fpm,需要修改2个php.ini文件 sendmail_from = "[email protected]" //发送邮件的 ...

stl_slist.h

stl_slist.h // Filename: stl_slist.h // Comment By: 凝霜 // E-mail: [email protected] // Blog: http:// ...

ZeroClipboard 实现批量复制的Javascript正确代码！

//Author: default7<default7#zbphp.com> function initCopy($o) { var text = $o.html(); if (text) ...

Python子类方法的调用（类方法）

class S(object): def Test(self): print("TEST") @classmethod def Test02(cls): print("c ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.