睿象云高科 | 浅谈告警管理能力成熟度模型

随着IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,越来越多的企业不得不引入更多的工具、更复杂的流程和更多的运维人员,来提升IT系统管理的精细度,但新的问题也随之而来。

犹如蝴蝶效应,在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警的精细化管理势在必行。

充满挑战的运维告警管理

如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速的甄别根因告警?如何沉淀告警处置经验?如何快速恢复业务运行? 这些都是每一个运维团队在工作中面临的最棘手的问题。到底是什么原因导致如此频发的告警风暴,给告警管理带来如此之高的复杂度呢?

应用系统间关系更加紧密

完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。

告警策略设置难以找到平衡点

过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不落掉告警,不得不提升告警的灵敏度,而这样告警重复率可能高达60%。

告警响应的及时性不高

多个人参与同一类告警的处理是目前大部分运维团队的工作模式,少则2-3人,多到9-10人,同一个告警会被推送到多个运维人员的手中。但是,通常在一些特殊时段只有一个值班员负责处理告警,这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制,加上大量重复的无效信息,这将会在一定程度上造成告警处理的延时和遗漏,从而引发告警风暴。

“告警管理能力成熟度模型”呼之欲出

为了提升 IT 系统的运维管理效率,最大程度降低运维管理难度,AIOps 成了技术发展的必然选择。而告警管理作为AIOps的重要组成部分,上接监控工具,下接ITIL流程和自动化平台,是整个运维监控体系中承上启下的中枢。告警管理能力的高低成为了掣肘IT运维SLA(Service-Level Agreement服务等级协议)的关键。

为了帮助企业更加量化的评估当下告警管理能力,明确告警管理平台建设目标和演进路线,我们将告警管理能力分为5个级别,整合出了“告警管理能力成熟度模型”,每个级别按照管理能力的不同程度,呈现递进的方式,高级别内容包含低级别内容。

表一:告警管理能力成熟度模型分级

Level 1,告警分散管理

我们的运维团队为了尽可能全面的覆盖IT系统的各个环节,不得不引入多个监控工具,不同的监控工具会产生数以万计的告警,这些告警都需要去分析、优先级甄别、并执行预案操作。随着时间的推移,可能是数十万、百万的告警事件需要被关注。

因为缺少了告警的集中管理和分派,不同对象的告警信息在运维人员间无序的传递,导致告警响应和处理效率低下。严格意义上来说,这个级别的成熟度还谈不上管理。

Level 2,告警统一管理

越来越多的运维团队已经意识到了无序所带来的高额的管理成本和低下的故障处理效率。据统计,有超过20%的企业通过运维开发团队自建或利用第三方平台来进行告警的统一管理。

将不同监控工具或系统产生的告警接入到统一管理平台之中,并能够基于一定的规则对告警进行去重,过滤和压缩。这个级别的管理能力成熟度打破了监控工具的边界,以业务或场景为视角,根据运维团队的职能分工,如按照业务或者IT架构分工,将告警分门别类,结合更加高效的协作工具,如钉钉、企业微信、Slack等,在一定程度上提升了故障处理的效率。

Level 3,告警智能管理

业务在变,监控需求也在变,因为告警去重规则的死板而带来的问题不言而喻。通过大量的数据统计分析,只有不到40%的告警能够通过规则进行压缩。

随着人工智能技术的不断发展,特别是NLP(Natural Language Processing,自然语言处理)技术的成熟,针对告警这类文本数据的分类、聚类、模式发现算法,成为了有效抑制告警风暴,提升告警有效性的主要手段。可以通过时间相关性、文本相似度、故障溯因图、CMDB(Configuration Management Database,配置管理数据库)等手段,对海量数据中相似、相关的告警进行聚合。针对告警中的异常、新奇等重要信息,通过时间熵和内容熵进行标识,越是不频发、无规律、严重度高的告警越需要被重视,熵值越大信息越重要。告警智能管理将极大减少告警处理量,提升告警故障分析效率。

Level 4,根因告警定位

根因定位一直是告警管理皇冠上的那颗明珠。由于告警的传递性和多面性,要在众多错综复杂的信息中迅速定位根因对所有运维团队来说都是巨大的挑战。

关于根因定位的探索大致可以分为以下三个方向,一是基于动态获取的系统调用链路和承载关系,并结合时间相关性开展根因分析;二是基于CMDB构建一个实时反映系统环境的配置项和关系二元组群,通过告警在其中的投射关系进行根因定位;三是建立全面覆盖IT运维管理全域的实体、属性、关系三要素库,再运用知识图谱算法获得根因告警。当然不论是哪一种方案,都需要建立在对IT系统架构的深度学习和理解基础之上,才能真正做到明辨真伪,洞悉根因。

Level 5,告警自愈

告警自愈是一套完备的故障自动化处理流程,通过打通监控工具、告警平台、任务调度平台、CMDB、ITIL等相关系统,实现从告警接收,根因定位,规则匹配,脚本执行,故障恢复,人工确认,最后到告警恢复,真正实现告警的全生命周期管理。

除了Level 4中根因告警定位这个技术难点外,整个告警自愈过程还有另一个关键点,就是告警故障知识库的建立,这是日常运维工作经验的积累和沉淀,也是故障恢复方案的基础。但这也恰恰是我们很多企业的软肋,大量的故障处理经验都存在于运维人员各自的大脑中,日常中更多的依靠个人能力去排查和恢复故障。随着运维人员的流动,这些最为宝贵的资产也随之流失,这使得一个重复故障的处理也需要进行重新分析,不必要的拉长了故障恢复时间。

告警自愈能帮助运维团队第一时间查明问题原因,实现故障的快速修复。同时还能帮助运维团队沉淀问题处置经验,防范潜在风险,最终形成系统运维的闭环管理。

目前,越来越多的企业在告警管理领域展开探索,并且在告警风暴抑制上取得了一定的成效。睿象云的智能告警平台也在帮助不同行业的运维团队解决告警集中和智能管理的问题。运维之路,艰苦漫长,告警的持续改进也不能一蹴而就,相信随着技术的发展和经验的积累,告警管理必将迎来跨越式发展的盛夏。我们也希望通过大家对告警管理能力成熟度模型的探讨和实践,引领我们共同步入无人值守这个运维终极目标。

原文地址:https://www.cnblogs.com/ruixiangyun/p/11344227.html

时间: 2024-12-14 05:37:05

睿象云高科 | 浅谈告警管理能力成熟度模型的相关文章

浅谈告警管理能力成熟度模型

随着IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,越来越多的企业不得不引入更多的工具.更复杂的流程和更多的运维人员,来提升IT系统管理的精细度,但新的问题也随之而来.犹如蝴蝶效应,在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应.不同监控平台的红色标识.不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警的精细化管理势在必行. 充满挑战的运维告警管理 如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速的甄别根因告警?如何沉淀告警处置经验?如何快速

浅谈知识管理

工欲善其事,必先利其器 推荐使用为知笔记(WizNote),它是电脑.手机.平板上都能用的云笔记软件,还可以分类管理和共享资料! 使用我的邀请码注册 前言 在做项目,解决某些需求的时候,总会用到自己不熟悉的模块和技术,这时候就会各种谷歌百度查手册,查询完之后,实现功能需求,过一段时间之后,就又忘记当时是如何实现的了. 这时你会怎么做?是又去网上查找一遍?还是说通过之前的个人知识管理,即时抓取.快速检索该知识? 浅谈知识管理(以自己为例) 熟话说:“好记性不如烂笔头”,但是在这个信息爆棚的时代,充

浅谈UML的概念和模型之UML九种图

文件夹: UML的视图 UML的九种图 UML中类间的关系 上文我们介绍了,UML的视图,在每一种视图中都包括一个或多种图.本文我们重点解说UML每种图的细节问题: 1.用例图(use case diagrams) [概念]描写叙述用户需求,从用户的角度描写叙述系统的功能 [描写叙述方式]椭圆表示某个用例:人形符号表示角色 [目的]帮组开发团队以一种可视化的方式理解系统的功能需求 [用例图] 2.静态图 类图(class  diagrams) [概念]显示系统的静态结构,表示不同的实体是怎样相关

浅谈外包管理

引子 最近接手了一项技术外包管理的任务,由于外包管理经验的欠缺(主观原因)和项目的复杂性(客观原因),在资源协调和过程监控方面遇到了不少问题,项目进展缓慢.每次周会都胆战心惊,唯恐老板问询项目的情况.好在我还算有些自知之明,与其惴惴不安等待未来某个时间突然引爆现在种下的地雷,还不如现在捅穿这个马蜂窝,于是主动找老板谈话,交底.问建议.求支持.老板似乎对一切都早已意料,听了我的控告加检讨,当即表态内部协调的事可以找XX,至于承包商那边,找个时间一块去看看.BINGO!虽然还有不少潜在的风险,好在事

OC - 浅谈内存管理

今天看到一篇不错的文章关于OC内存管理的,转载一下与你共享 概述我们知道在程序运行过程中要创建大量的对象,和其他高级语言类似,在ObjC中对象时存储在堆中的,系统并不会自动释放堆中的内存(注意基本类型是由系统自己管理的,放在栈上).如果一个对象创建并使用后没有得到及时释放那么就会占用大量内存.其他高级语言如C#.Java都是通过垃圾回收来(GC)解决这个问题的,但在OjbC中并没有类似的垃圾回收机制,因此它的内存管理就需要由开发人员手动维护.今天将着重介绍ObjC内存管理: 1 引用计数器 2

浅谈项目进度管理

项目进度管理的好坏与很多因素有关,项目管理过程中,最容易出问题也是最常见的问题就是进度的滞后.作为项目管理者,进度管理在某种程度上决定了项目的成败. 我在8年的项目管理生涯中,带领了大大小小的项目,不一而足.进度是最容易出现问题的一个环节.在进度管理中,也应为某些项目进度没有控制好,获得了一些经验教训,并深受启发.个人总结下来,影响进度的原因可以分为不可预见因素和可预见因素两部分: 不可预见因素: 1.来自于客户.市场等外部因素不合实际的进度要求: 2.项目在执行过程中,外部依赖条件没有按照计划

中安云城浅谈企业营销策划有哪些要点

营销策划一般都分为分析及策划,这两个都是不能缺少的重要步骤,只有分析了各种因素才能制定最适合的的战略策划,只有对分析深入了解准确后才能更加客观的制定策划,能够了解到有利与不利的环境,对于企业来说都是至关重要的. 中安云城分析一下营销策划的内容具体有哪些: 1.确定策划的目的以及推广的产品制定能够分析的目标,符合企业的长远发展,或者能够超越目标,达到更加合理的目标计划. 2.分析市场存在的竞争对于计划中的各项要求以及环境进行分析,判断是否对于企业有利的影响,以及确定不利因素,制定应对各类情况的方案

浅谈Vue的生命周期模型

Vue实例从创建到销毁的过程,就是生命周期.Vue的生命周期包括:开始创建.初始化数据.编译模板.挂载Dom.渲染→更新→渲染.卸载等一系列过程. 在Vue的整个生命周期中,提供了一系列的事件,可以注册JavaScript方法,达到控制整个过程的目的,在这些javascript方法中的this直接指向的是vue的实例. 在Vue的整个生命周期中,实例可以调用一些生命周期钩子,这提供了执行自定义逻辑的机会. Vue提供的生命周期钩子如下:① beforeCreate在实例初始化之后,数据观测(da

浅谈网络I/O多路复用模型 select & poll & epoll

我们首先需要知道select,poll,epoll都是IO多路复用的机制.I/O多路复用就通过一种机制,可以监视多个描述符,一旦某个描述符就绪(一般是读就绪或者写就绪),能够通知程序进行相应的读写操作.但select,poll,epoll本质上都是同步I/O,因为他们都需要在读写事件就绪后自己负责进行读写,也就是说这个读写过程是阻塞的. select的基本用法:http://blog.csdn.net/nk_test/article/details/49256129 poll的基本用法:http