基于Flink秒级计算时CPU监控图表数据中断问题

基于Flink进行秒级计算时，发现监控图表中CPU有数据中断现象，通过一段时间的跟踪定位，该问题目前已得到有效解决，以下是解决思路：

一、问题现象

以SQL02为例，发现本来10秒一个点的数据，有时会出现断点现象，会少1-2个点甚至更多：

二、问题定位

针对该问题，根据数据处理链路，制定了数据输出跟踪示意图，如下所示：

通过输出的实际数据发现：

1.监控Agent的数据已经正确上报Kafka

2.从Kafka中可以正确取到监控Agent上报的数据

3.从计算完毕的Kafka中取不到丢失点的数据

4.从InfluxDB中取不到丢失点的数据

因此定位到数据是在Flink进行处理时丢失了，于是在Flink处理窗口中增加了输出，以确认一个窗口起止时间以及实际计算的数据都有哪些：

以下是一个时间窗口中的数据，可以发现数据报数时，乱序现象比较严重：

三、问题解决

如果我们以10秒为一个窗口，以一分钟为例，则Flink划分的计算时间窗口会如下所示：

[00:50,01:00)

[00:40,00:50)

[00:30,00:40)

[00:20,00:30)

[00:10,00:20)

[00:00,00:10)

这里的窗口是一个前闭后开的时间段，也就是：[窗口开始时间,窗口结束时间)

Flink基于Event Time+窗口+水位来解决乱序及延迟到达问题，当满足以下条件时，触发一个窗口里的数据进行计算：

a.水位时间>=窗口的结束时间

b.窗口中有需要计算的数据存在

当窗口已经触发计算，默认情况下，后续到达的数据将会被丢弃，所以当延迟及乱序很严重时，水位（延迟时间）越小，被丢弃的可能性越大

当初为了能快速计算，设置的窗口大小是10秒，水位（延迟时间）是0.5秒，从前面输出可以看到，数据乱序比较严重，加上传输延迟，设置的0.5秒时间太短，导致触发窗口计算时，一些数据会被丢弃，从而导致监控图表上出现断点情况。

在窗口大小固定的情况下，要解决该问题，有两个解决方案：

a.增加水位（延迟时间），先后调整到1秒、5秒、10秒（已经和窗口一样大！）

b.调整监控数据报数时间，对于监控插件类型的，固定首次报数时间是整分钟后2秒，保证每次报数，都落在同一个10秒内，且不会有太大乱序，也可以有效避免两次报数落在同一个10秒内

目前在只进行了解决方案a的情况下，已经有效解决了该问题，但仍会偶尔出现1个断点，实施方案b后，将从根本上解决该问题，同时可以进一步降低方案a的延迟时间，保证低延迟

时间： 2024-08-01 21:19:48

基于Flink秒级计算时CPU监控图表数据中断问题的相关文章

阿里云云数据库RDS秒级监控功能解锁，通宵加班找故障将成为过去式

摘要: 每一个奋斗在前线的数据库管理员和运维人员似乎运气都不太好,这些人都绝对经历过的诡异事件就是:逢年过节必出故障,明明眼看着要休假了,又接到故障通知,只好通宵加班找问题.没问题的时候可能大家都不会想到你,一出问题就先拿运维试问,于是每逢佳节便出现拜数据库的戏谑图片. 每一个奋斗在前线的数据库管理员和运维人员似乎运气都不太好,这些人都绝对经历过的诡异事件就是:逢年过节必出故障,明明眼看着要休假了,又接到故障通知,只好通宵加班找问题.没问题的时候可能大家都不会想到你,一出问题就先拿运维试问,于是

阿里云新功能：EIP高精度实时互联网流量秒级监控

大家好,很高兴向大家介绍一下高精度秒级监控很高兴的告诉大家,阿里云弹性公网IP即日起支持高精度秒级监控了.而令人激动的是,这可能是史上最好用的实时业务流量监控功能,没有之一. 众所周知,弹性公网IP(EIP)承载了海量的互联网BGP流量,这些流量实时性要求很高,对公网带宽的质量要求也很高.如果公网带宽跑满未及时扩容,很容易出现业务流量限速丢包,进而引发客户端访问质量恶化的和用户体验的直线下降. 对于极度关注和珍视用户体验的互联网内容提供方,是十分在意互联网流量的实时监控的.如果业务流量超过预设

模拟实现配置中心配置发生变化时秒级推送至客户端代码思路

import com.alibaba.fastjson.JSON; import com.xuebusi.spring.study.http.BasicHttpUtil; import com.xuebusi.spring.study.model.ConfData; import org.springframework.beans.factory.InitializingBean; import org.springframework.web.bind.annotation.GetMapping

微博广告Hubble系统：秒级大规模分布式智能监控平台架构实践

关键词:微博广告 Hubble 监控平台 D+ 大数据机器学习 LSTM Tensorflow 业务背景 Hubble(哈勃,其含义是数据如浩瀚宇宙之大,Hubble 如太空望远镜,能窥见璀璨的星辰,发现数据的真正价值)平台定位为微博广告智能全景监控.数据透视和商业洞察. 计算广告系统是集智能流量分发.投放.结算.CTR 预估.客户关系管理等为一体的大型互联网业务系统.随着微博业务的快速增长,广告系统复杂度越来越高,成千上万的模块需要不停地进行计算和通信,如何保证这么复杂的系统正常健康运行是一

天猫11.11：搜索引擎实时秒级更新

搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量.库存.人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要.在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要.在今年的“双十一”活动中,InfoQ有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基.桂南和悾傅,与他们共同探讨了搜索引擎背后的细节.以下内容根据本次采访整理而成. 阿里巴巴的搜索引擎承担着全集团的搜索业务,包括淘宝.天猫.1688等系统,对比传统的

[转]天猫11.11：搜索引擎实时秒级更新

如何将日志服务的数据秒级同步到表格存储

原文地址最近在容器服务的官方镜像中,新增了loghub-shipper的镜像,使用该镜像,可以订阅日志服务中的日志库,以秒级的延时将日志数据从日志服务中读出并转换成结构化数据存储在表格存储中,以满足实时在线服务的精确查询需求. 什么是日志服务? 日志服务(Log Service,Log)是针对日志场景的一站式解决方案,解决海量日志数据采集/订阅.转储与查询功能,比如在海量游戏日志收集与分析场景上的应用. 什么是表格存储? 表格存储(TableStore)提供海量NoSQL数据的存储与实时访问服

阿里如何实现秒级百万TPS？搜索离线大数据平台架构解读读后感

阅读文章:阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读文章网址:https://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247488245&idx=1&sn=1c70a32f11da7916cb402933fb65dd9f&chksm=e9292ffade5ea6ec7c6233f09d3786c75d02b91a91328b251d8689e8dd8162d55632a3ea61a1&scene=2

秒级容灾，UCloud 内网高可用服务之三代架构演进

快节奏的生活,任何的业务异常 / 中断都是不能容忍的. 在无人化超市选购完成进行结账时,结账页面突然卡住,无法完成购买操作.这时该选择放弃手中的商品 or 继续等待? 酒店办理入住时,管理系统突然崩溃,无法查询预订记录,导致办理入住受到影响,酒店前台排起了长队-- 高可用与我们每个人都是息息相关的,在即将到来的双十一,更是对各个电商的业务可用性提出了更高的要求.对此,UCloud 提供基于内网 VIP 的高可用服务,内网 VIP 通过前后三代广播集群的设计演进,解决了复杂异构 Overlay 网