Flink流式引擎技术分析--大纲

Flink简介

  Flink组件栈

  Flink特性

    流处理特性

    API支持

    Libraries支持

    整合支持

  Flink概念

    Stream、Transformation、Operator

    Parallel Dataflow

    Task、Operator Chain

    Window

    Time

  Flink架构

    JobManager

    TaskManager

    Client

  Flink调度

    逻辑调度

    物理调度

  Flink容错

Flink的集群部署

  环境准备

  集群安装

  集群启动

  案例测试

整体执行过程

数据流图的分析

  生成执行计划

    源码分析

  StreamGraph的生成

    原理分析

    源码分析

  JobGraph的生成

    源码分析

    原理分析

  ExcutionGraph的生成

    源码分析

    原理分析

  物理执行图

    源码分析

transformation的类型

  分区器的类型

    GlobalPartitioner

    ForwardPartitioner

    ShufflePartitioner

    HashPartitioner

    CustomPartitionerWrapper

    BroadcastPartitioner

    RebalancePartitioner

Flink客户端提交作业

生成消费原理

  序列化阶段和结果分区生产阶段

  通知消费者消费

  消费者做具体消费

  反序列化阶段

Flink资源分配

  源码分析

  资源分配原理分析

Task的任务执行分析

原文地址:https://www.cnblogs.com/liuzhongfeng/p/8590247.html

时间: 2024-08-26 14:12:22

Flink流式引擎技术分析--大纲的相关文章

Java三大主流开源工作流引擎技术分析

Java三大主流开源工作流引擎技术分析 首先,这个评论是我从网上,书中,搜索和整理出来的,也许有技术点上的错误点,也许理解没那么深入.但是我是秉着学习的态度加以评论,学习,希望对大家有用,进入正题! 三大主流工作流引擎:Shark,osworkflow,jbpm! Shark的靠山是Enhydra.Enhydra做过什么呢?多了!从j2ee应用服务器,到o/r mapping工具,到这个工作流引擎等等.为什么Shark的持久层采用DODS来实现?就是因为他们是一家人. Jbpm的靠山是jboss

轻量级流式日志计算分析plog+(zabbix+grafana)

plog是一个用python写的流式计算分析框架,适用于轻量级流式数据的分析场景,大数据场景下大家自然想到使用spark等方案. 拿当前的业务场景看,需要对机器上nginx的流日志进行状态码.响应时间.QPS的实时分析,通过zabbix展现在grafana里,QPS在1000以内.传统方法是用shell脚本来计算各种数据,然后通过主动或被动模式传到zabbix里,此种方法有很大局限性,一是grep或awk过滤日志时,很难控制好过滤的数量,过滤的多了严重影响性能,可能上一个数据都没计算出来,这一次

Spark与Flink大数据处理引擎对比分析!

大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop.Storm,还是后来的Spark.Flink.然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个.今天,将从几个项出发着重对比Spark与Flink这两个大数据处理引擎,探讨其两者的区别. 一.Spark与Flink几个主要项目的对比与分析 1.性能对比 测试环境: CPU:7000个 内存:单机128GB 版本:Hadoop 2.3.0,Spark 1.4,F

Apache Flink流作业提交流程分析

提交流程调用的关键方法链 用户编写的程序逻辑需要提交给Flink才能得到执行.本文来探讨一下客户程序如何提交给Flink.鉴于用户将自己利用Flink的API编写的逻辑打成相应的应用程序包(比如Jar)然后提交到一个目标Flink集群上去运行是比较主流的使用场景,因此我们的分析也基于这一场景进行. Flink的API针对不同的执行环境有不同的Environment对象,这里我们主要基于常用的RemoteStreamEnvironment和RemoteEnvironment进行分析 在前面我们谈到

Flink流式计算

Structured Streaming A stream is converted into a dynamic table. A continuous query is evaluated on the dynamic table yielding a new dynamic table. The resulting dynamic table is converted back into a stream. Defining a Table on a Stream  Continuous

流式计算(一)-Java8Stream

大约各位看官君多少也听说了Storm/Spark/Flink,这些都是大数据流式处理框架.如果一条手机组装流水线上不同的人做不同的事,有的装电池,有的装屏幕,直到最后完成,这就是典型的流式处理.如果手机组装是先全部装完电池,再交给装屏幕的组,直到完成,这就是旧式的集合式处理.今天,就来先说说JDK8中的流,虽然不是很个特新鲜的话题,但是一个很好的开始,因为——思想往往比细节重要! 准备: Idea2019.03/Gradle5.6.2/JDK11.0.4/Lambda 难度:新手--战士--老兵

流式传输的两大主流种类及流式传输特点

转自:http://blog.csdn.net/hguisu/article/details/7418087 流式传输定义很广泛,现在主要指通过网络传送媒体(如视频.音频)的技术总称.其特定含义为通过Internet 将影视节目传送到PC机.实现流式传输有两种方法:实时流式传输(Realtime streaming)和顺序流式传输(progressive streaming).(百度百科) 在网络上传输音/视频(英文缩写A/V)等多媒体信息目前主要有下载和流式传输两种方案.A/V文件一般都较大,

Flink系列之流式

本文仅是自己看书.学习过程中的个人总结,刚接触流式,视野面比较窄,不喜勿喷,欢迎评论交流. 1.为什么是流式? 为什么是流式而不是流式系统这样的词语?流式系统在我的印象中是相对批处理系统而言的,用来处理流数据,实现数据处理功能的一个系统,而流式一词提醒我要以数据产生的方式去看待数据和以及处理过程,即在现实生活中,数据是以流的形式不断产生的,处理的过程应贴近数据产生的方式. 2.流与批 在处理数据时,对数据而言有:无界和有界之分.无界可以理解为不知道数据产生的停止时间,在数学上可以用前闭后开( [

流式计算(五)-Flink核心概念

一手资料,完全来自官网,直接参考英文过来的,并加了一些自己的理解,希望能让看官君了解点什么,足矣. 环境:Flink1.9.1 难度:新手--战士--老兵--大师 目标: 理解Flink的计算模型 认识各重要组件 说明: 本篇作为前两篇的补充内容,算是理论篇 步骤: 01-Flink编程模型 Flink的流计算整体来看都是按照Source -> Transformation -> Sink三步走,即获取流源 -> 进行转换 -> 汇聚(Sink),但“转换 (Transformat