Spark Streaming基础概念

　　为了更好地理解Spark Streaming 子框架的处理机制，必须得要自己弄清楚这些最基本概念。

　　1、离散流（Discretized Stream，DStream）：这是Spark Streaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在Spark Streaming中对应于一个DStream的实例。

　　2、批数据（batch data）：这是化整为零的第一步，将实时流数据以时间片为单位进行分批，将流处理转换为时间片数据的批处理。随着持续时间的推移，这些处理结果就形成了对应的结果数据流了。

　　3、时间片或批处理时间间隔（batch interval）：这是人为地对流数据进行定量的标准，以时间片作为拆分流数据的依据。一个时间片的数据对应一个RDD实例。

　　4、窗口长度（window length）：一个窗口覆盖的流数据的时间长度。必须是批处理时间间隔的倍数。

　　5、滑动时间间隔：前一个窗口到后一个窗口所经过的时间长度。必须是批处理是假间隔的倍数。

　　6、input DStream：一个input DStream是一个特殊的DStream，将Spark Streaming连接到一个外部数据源来读取数据。

　　7、Receiver ：长时间（可能 7 X 24小时）运行在Executor。每个Receiver负责一个input DStream（例如一个读取Kafka消息的输入流）。每个Receiver，加上DStream会占用一个core/slot。

时间： 2025-01-01 15:19:53

Spark Streaming基础概念的相关文章

Spark Streaming核心概念与编程

1. 核心概念 StreamingContext Create StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new SparkConf().setAppName(appName).setMaster(master) //Second(1) #表示处理的批次, 当前1秒处理一次 val ssc = new StreamingContext(conf, Second

spark streaming基础知识1

1.怎么理解spark streaming中的dstream? 它是spark streaming的基础数据结构,代表着(time,RDD)序列,有两种生成方式,一种是基于流数据创建(kafka,socket...),一种是基于已有的dstream进行转换产生.在spark streaming作业运行的时候,Dstream会根据它的duration,定期生成RDD.而且会进一步根据rdd生成作业,排入队列,调度器触发执行. 由此可以理解,为什么说spark streaming是微批处理的.它提前

Spark Streaming 基本概念

介绍 Spark Streaming架构图 the micro-batch architecture of Spark Streaming Execution of Spark Streaming within Spark's components

通过案例对 spark streaming 透彻理解三板斧之二：spark streaming运行机制

本期内容: 1. Spark Streaming架构 2. Spark Streaming运行机制 Spark大数据分析框架的核心部件: spark Core.spark Streaming流计算.GraphX图计算.MLlib机器学习.Spark SQL.Tachyon文件系统.SparkR计算引擎等主要部件. Spark Streaming 其实是构建在spark core之上的一个应用程序,要构建一个强大的Spark应用程序 ,spark Streaming是一个值得借鉴的参考,spa

Spark Streaming实时流处理项目实战

第1章课程介绍 1-1 -导学- 1-2 -授课习惯和学习建议 1-3 -OOTB环境使用演示 1-4 -Linux环境及软件版本介绍 1-5 -Spark版本升级第2章初识实时流处理 2-1 -课程目录 2-2 -业务现状分析 2-3 -实时流处理产生背景 2-4 -实时流处理概述 2-5 -离线计算和实时计算对比 2-6 -实时流处理框架对比 2-7 -实时流处理架构及技术选型 2-8 -实时流处理在企业中的应用第3章分布式日志收集框

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版

铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.IllegalArgumentException: requirement failed: The checkpoint directory has not been set. Please set it by StreamingContext.checkpoint(). 需求:将统计结果写入到MySQLcre

Spark Streaming和Kafka集成深入浅出

写在前面本文主要介绍Spark Streaming基本概念.kafka集成.Offset管理本文主要介绍Spark Streaming基本概念.kafka集成.Offset管理一.概述 Spark Streaming顾名思义是spark的流式处理框架,是面向海量数据实现高吞吐量.高可用的分布式实时计算.关于spark的安装可以参考Spark入门.Spark Streaming并非像Storm那样是真正的流式计算,两者的处理模型在根本上有很大不同:Storm每次处理一条消息,更多详细信息可

Dataflow编程模型和spark streaming结合

Dataflow编程模型和spark streaming结合主要介绍一下Dataflow编程模型的基本思想,后面再简单比较一下Spark streaming的编程模型 == 是什么 == 为用户提供以流式或批量模式处理海量数据的能力,该服务的编程接口模型(或者说计算框架)也就是下面要讨论的dataflow model 流式计算框架处理框架很多,也有大量的模型/框架号称能较好的处理流式和批量计算场景,比如Lambda模型,比如Spark等等,那么dataflow模型有什么特别的呢? 这就要要从

spark streaming (二)

一.基础核心概念 1.StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new StreamingContext(conf, Seconds(1)); StreamingContext, 还可以使用已有的SparkContext来创建