flink流计算随笔(4)

Flink中的程序本质上是并行的和分布式的。在执行期间，流有一个或多个流分区，每个操作符有一个或多个操作符子任务。操作符子任务相互独立，在不同的线程中执行，可能在不同的机器或容器上执行。

运算符子任务的数量是特定运算符的并行度。一个流的并行性总是它的生产操作符的并行性。同一程序的不同运算符可能具有不同级别的并行性。

流可以在两个操作符之间以一对一(或转发)模式传输数据，也可以在重分发模式中传输数据:

一对一One-to-one流(例如上图中源和map()运算符之间的流)保持元素的分区和顺序。这意味着map()操作符的子任务将看到与源操作符的子任务生成的元素相同的顺序。

重新分布Redistributing流(如上面的map()和keyBy/window之间，以及keyBy/window和Sink之间)改变流的分区。每个操作符子任务根据所选的转换将数据发送到不同的目标子任务。例如：keyBy()(通过散列键来重新分区)、broadcast()或rebalanced()(随机重新分区)。在重分发交换中，元素之间的顺序只保留在每一对发送和接收子任务中(例如map()的子任务和keyBy/window的子任务)。因此，在本例中，每个键中的顺序都是保留的，但是并行性确实引入了关于不同键的聚合结果到达sink的顺序的不确定性。

原文地址：http://blog.51cto.com/13959448/2316202

时间： 2024-10-09 03:58:09

flink流计算随笔(4)的相关文章

Flink流计算随笔(1)

相比 Spark Stream.Kafka Stream.Storm 等,为什么阿里会选择 Flink 作为新一代流式计算引擎?前期经过了哪些调研和对比? 大沙:我们是 2015 年开始调研新一代流计算引擎的.我们当时的目标就是要设计一款低延迟.exactly once.流和批统一的,能够支撑足够大体量的复杂计算的引擎.Spark streaming 的本质还是一款基于 microbatch 计算的引擎.这种引擎一个天生的缺点就是每个 microbatch 的调度开销比较大,当我们要求越低的延迟

flink流计算随笔(3)

Stateful Computations over Data Streams(在数据流的有状态计算)Apache Flink是一个用于分布式流和批处理数据的开源平台.Flink的核心是一个流数据流引擎,它为数据流上的分布式计算提供数据分布.通信和容错能力.Flink在流引擎之上构建批处理,覆盖本地迭代支持.托管内存和程序优化.通常在程序中的转换和数据流中的操作符之间存在一对一的对应关系.然而,有时一个转换可能包含多个转换操作符. 在串流连接器和批处理连接器文档中记录了源和汇(Sources a

flink流计算随笔（6）

?生成,编译模板工程 MacBook-Air:SocketWindowWordCount myhaspl$ bash <(curl https://flink.apache.org/q/sbt-quickstart.sh) % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 11510 100 11510 0 0 4499 0 0:00:02

flink流计算随笔(2)

MACOS下安装flink: $ brew install apache-flink ... $ flink --version $brew upgrade MACOS下启动flink: $cd /usr/local/Cellar/apache-flink/1.6.0 $./libexec/bin/start-cluster.sh /* * Licensed to the Apache Software Foundation (ASF) under one * or more contribut

Flink流计算编程--在WindowedStream中体会EventTime与ProcessingTime

一.Flink流处理简介 Flink流处理的API叫做DataStream,可以在保证Exactly-Once的前提下提供高吞吐.低延时的实时流处理.用Flink作为流处理框架成功的案例可参考Flink母公司–Data Artisans官方blog中的2篇文章: How we selected Apache Flink as our Stream Processing Framework at the Otto Group Business Intelligence Department RBE

Flink流计算编程--在双流中体会joinedStream与coGroupedStream

一.joinedStream与coGroupedStream简介在实际的流计算中,我们经常会遇到多个流进行join的情况,Flink提供了2个Transformations来实现. 如下图: 注意:Join(Cogroups) two data streams on a given key and a common window.这里很明确了,我们要在2个DataStream中指定连接的key以及window下来运算. 二.SQL比较我们最熟悉的SQL语言中,如果想要实现2个表join,可以

Apache Flink流分区器剖析

这篇文章介绍Flink的分区器,在流进行转换操作后,Flink通过分区器来精确得控制数据流向. StreamPartitioner StreamPartitioner是Flink流分区器的基类,它只定义了一个抽象方法: public abstract StreamPartitioner<T> copy(); 但这个方法并不是各个分区器之间互相区别的地方,定义不同的分区器的核心在于--各个分区器需要实现channel选择的接口方法: int[] selectChannels(T record,

流计算及在特来电监控引擎中的实践

随着云计算的深入落地,大数据技术有了坚实的底层支撑,不断向前发展并日趋成熟,无论是传统企业还是互联网公司,都不再满足于离线批处理计算,而是更倾向于应用实时流计算,要想在残酷的企业竞争中立于不败之地,企业数据必须被快速处理并输出结果,流计算无疑将是企业Must Have的大杀器.作为充电生态网的领军企业,特来电在流计算方面很早便开始布局,下面笔者抛砖引玉的谈一下流计算及在特来电监控引擎中的应用实践. 一.由Bit说开去作为计算机信息中的最小单位,Bit就像工蚁一样忙碌,任一时刻都只能处于以下三种

解读 2018：13 家开源框架谁能统一流计算？

018 年接近尾声,我018 年接近尾声,我策划了"解读 2018"年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化.本文是实时流计算 2018 年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面.客观的对比,同时对未来流计算可能的发展方向进行预测和展望.策划了"解读 2018"年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化.本文是实时流计算 20

猜你喜欢

Data guard概念篇一(转载)

本文转载至以下链接,感谢作者分享! http://tech.it168.com/db/2008-02-14/200802141545840_1.shtml 一.Data Guard配置(Data Gu ...

输入几个数字，用逗号隔开系列例题

输入n个数字,用逗号分隔处理过程如下: char str[100]; char ch = '\0'; int i = 0; vector<int> v; int tmp = 0; cin ...

4.流程控制语句

流程控制语句学习要点:1.语句的定义2.if语句3.switch语句4.do...while语句5.while语句6.for语句7.for...in语句8.break和continue语句9.whi ...

Linux Centos7 Apache 访问 You don't have permission to access / on this server.

折腾了很久,今天才找到了最正确的答案.感言真不容易. 百度出来的99%都是采集的内容,全都是错误的. You don't have permission to access / on this ser ...

提示13. 附加一个实体的简单方式

提示13. 附加一个实体的简单方式问题: 在早先的一些提示中,我们讨论了使用Attach来加载一个处于未改变(unchanged)状态的东西到ObjectContext从而避免进行查询的开销. 如果 ...

使用C#语言控制数据库，完成用户登陆功能

1. 数据库的创建首先需要选择一个数据库管理工具,这里我们使用Navicat Premium作为我们的数据库管理工具,这款软件是需要下载安装的,安装完成之后需要记住你的账号和密码.我们使用mysql ...

Spark天堂之门(SparkContext)解密(DT大数据梦工厂)

内容: 1.Spark天堂之门: 2.SparkContext使用案例鉴赏: 3.SparkContext内幕: 4.SparkContext源码解密: SparkContext是编写任意Spark程 ...

浅谈海油员工健康管理系统的改造

随着人类生活和生产节奏加快,亚健康人群数量逐年上升.世界卫生组织(WHO)调查结果表明,全世界疾病状态人口占20%,亚健康状态人口占75%,真正健康的人只占总人口的5%.企业或机关单位的员工,承担着工 ...

linq多表查询

using System; using System.Collections.Generic; using System.Linq; using System.Text; using Otsuka.A ...

洛谷——P2925 [USACO08DEC]干草出售Hay For Sale

https://www.luogu.org/problem/show?pid=2925 题目描述 Farmer John suffered a terrible loss when giant Aus ...

使用 Sublime + PlantUML 高效地画图

什么是 PlantUML PlantUML 是一个画图脚本语言,用它可以快速地画出: 时序图流程图用例图状态图组件图简单地讲,我们使用 visio 画图时需要一个一个图去画,但使用 Plan ...

使用API在DigitalOcean上创建VPS

1.生成Personal Access Token(API-Token) 密钥类似如下格式: 81d58e36224b63fc2gedac14342d0cfb16vf5451c798b2a38f976 ...

利用VBA导出文件的例子

下面是利用VBA导出文件的例子,可以导出Excel内容等其他可以使用VBA的地方. Sub export_file() Dim fs, ft As Object Dim txtname As Stri ...

php实现文件上传与下载

php实现文件的上传与下载是一个挺基本的功能,一般网站多多少少都会有这样的需求在内,当然不是说所有的文件都可以被上传,那这网络就太没有安全性可言了.因为接触php时间不长,今天写练练手,随笔也就是公开 ...

〖Linux〗svn log 每个日志记录只显示一行的方法

vi ~/.bashrc,增加一个function 1 svnlog(){ 2 svn log "[email protected]" | awk -f <(cat < ...

静态工厂方法VS构造器

我之前已经介绍过关于构建者模式(Builder Pattern)的一些内容,它是一种很有用的模式用于实例化包含几个属性(可选的)的类,带来的好处是更容易读.写及维护客户端代码.今天,我将继续介绍对象创 ...

varnish的动静分离

一.Varnish简介 Varnish是一款高性能.开源的反向代理服务器和缓存服务器,其开发者Poul-Henning Kamp是FreeBSD核心的开发人员之一. Varnish主要运行两个进程:M ...

vSphere部署系统之04——ESXi的安装和配置

实验环境总体规划,请见前一篇博文<vSphere部署系统之03实验环境总体规划>. 在这一章节中,主要对三台PowerEdge R720服务器进行ESXi系统安装及基本配置. ▲总体规划网 ...

几种内存溢出的类型及解决思路

相信有一定java开发经验的人或多或少都会遇到OutOfMemoryError的问题,这个问题曾困扰了我很长时间,随着解决各类问题经验的积累以及对问题根源的探索,终于有了一个比较深入的认识. 在解决j ...

如何一年看50本好书？

1, 定时每天至少抽出5-10分钟雷打不动的读书时间,这是无论每天发生什么事情都不会受到影响的时间.例如,养成在早餐或午餐时间阅读的习惯,如果你每次坐在马桶上时间读书,在睡觉之前读书,那么你就拥有每天 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.