JITStack统一监控平台与事态管理

事态管理(Event Management),原来称作事件管理,是ITIL运营管理体系中的一个主要流程之一。所谓Event(事态)是指对于配置项或IT服务有重要意义的状态变化。比如IT系统中的服务器。

从启动状态变为关机状态、一个应用服务状态从Up到down的状态变化等等。Event一词还用于表示任何 IT 服务、配置项或监视工具创建通知。事态通常需要 IT 运营人员采取行动,并且通常导致事件记入日志。在ITIL V4中事态管理已经更新为监控与事态管理。

高效的IT服务运营有赖于对于基础设施、操作系统、应用系统等IT系统的状态的及时了解,并发现较于正常以及预期工作的任何偏差。以便尽快采取措施修正系统的偏差,这一功能需要通过出色的监控系统来实现。

人们往往会混淆监控和事态管理,两者虽然密切相关,但是还是有着本质的区别。监控通常以高度自动化的方式进行,并可以主动或被动地进行采集被监控项的状态。事态管理则侧重于记录和管理由组织定义为事态的状态监视和状态变更。强调对于运营管理有意义的状态变化并进行管理,确定事态的重要性、以及识别和启动正确的操作以管理它们。

监控对于事态管理是必要的,但不是所有监控都会导致检测到事态,并非所有事态都具有相同的意义或需要相同的响应。事态可以分级、通常可以分为信息(Information)、告警(Warning)、例外(Exception)。信息在识别时不需要采取行动,但可以在事后的分析过程中提供数据支撑以采取措施改进服务。告警通常在达到一定的条件下触发,使团队能够在业务发生实际负面影响之前采取措施应对。而例外则表明已经实际发生了违反预定义规范的事态,异常事态一定要采取措施。

通过监控工具或自动化监控对象的做法可能会产生大量数据,但如果没有关于如何限制,过滤和使用此数据的明确政策和策略,那么它将毫无价值。

JITStack集合主流开源监控平台并结合在监控领域的实施经验,为客户组织打造纵向层次化、横向大规模可扩展的灵活、成熟、可扩展的可视化统一监控解决方案。方案以Zabbix、Prometheus、ELK为开源监控平台,Grafana技术框架为开源可视化平台,结合Ansible开源自动化技术,打造纵向可以监控从硬件基础设施、系统、应用状态、业务数据,虚拟化环境、容器,日志等全方位信息系统以及对监控数据的分析、展示;横向可以实现从监控小规模几台到几十台的中小规模的集中式高可用部署,到监控几千台设备的分布式监控系统部署。

客户组织利用JITStack监控系统平台实行监控和事态管理流程中的重要活动:

定义监控项:确定哪些配置项,设备、系统、服务及其组件并确定监控策略。

实施和维护监控:利用设备、系统自身的监控功能或者使用专用的监控工具可实现监控,不同的系统产生的大量监控数据,各种事件分布在不同的系统中,如主机、网络设备的本身往往都有不同的监控系统,其监控信息、事态告警都分布在各自的监控系统中,通过JITStack统一监控系统将各种监数据汇集到统一监控系统、有利于简化事态管理复杂性,提高运维效率。

修正降噪:由于系统之间的耦合,同一个故障可能会导致各个不同的层级关联系统产生一系列相关的事态信息、告警和例外,使运营团队淹没于大量告警之中,增加了排查处理问题的难度。JITStack通过修正降噪方案,将相同原因的事态告警合并,只显示有限数量的事态通知,帮助运营团队专注于处理有意义的告警通知,提高效率。

建立维护阈值:确定哪些状态变化将被视为事态、并选择标准对事态进行分级。JITStack监控系统默认支持6级安全级别定义,满足更精细、灵活的响应操作管理。

JITStack监控系统支持分级层次多途径通知,结合客户组织实际,建立和维护应如何处理每级事态的政策以及适当的管理,在JITStack监控平台实施定义的阈值,标准和策略所需流程,并结合自动化工具实现运维管理的自动化。

利用JITStack监控平台进行监控与事态管理对于业务和运营管理价值:

其重要之处在于监控系统结合事态事态管理流程提供了早期发现故障的机制,在实际服务中断发生之前,就可以检测到故障并分配给相关团队采取措施。当整合服务管理的其他流程时,如故障管理、问题管理时,事态管理能够利用监控信息作为输入提供事态基础数据,显示出状态变化、异常现象,使相关人员或团队能够尽早响应,提高响应效率,从而使业务受益于整体运维效率的提升。监控与事态管理为自动化操作奠定了基石,运维自动化可以提高运营效率,并使昂贵的人力资源解放出来投入到更具创新价值的工作中去。

原文地址:https://blog.51cto.com/14258464/2435055

时间: 2024-11-02 09:38:20

JITStack统一监控平台与事态管理的相关文章

京东前端:PhantomJS 和NodeJS在网站前端监控平台的最佳实践

1. 为什么需要一个前端监控系统 通常在一个大型的 Web 项目中有很多监控系统,比如后端的服务 API 监控,接口存活.调用.延迟等监控,这些一般都用来监控后台接口数据层面的信息.而且对于大型网站系统来说,从后端服务到前台展示会有很多层:内网 VIP.CDN 等. 但是这些监控并不能准确地反应用户看到的前端页面状态,比如:页面第三方系统数据调用失败,模块加载异常,数据不正确,空白开天窗等. 相关厂商内容 Native动态化最新技术解析 不可错过的智能时代的大前端 性能优化最佳实践经验谈 百度技

一周集成行业智能监控应用,阿里云发布智能视频监控平台

在4月22-25日于上海举办的2019联通合作伙伴大会上,阿里云首次对外发布了智能视频监控平台,同时向参会的数千名伙伴及业界人士演示了一分钟视频监控上云系统,阐述了阿里云智能视频监控平台助力传统监控领域上云的优势和方法. 在视频监控领域,上云和AI是未来的趋势,阿里云智能视频监控解决方案无缝集成了视频监控产品和智能视觉产品.该平台依托遍布全球的边缘接入节点和出色的视频技术,面向监控设备提供统一开放的视频流接入.处理和分发服务.将传统的本地监控视频内容接入云端,进行存储.录制回看.全网分发,同时通

服务器远程监控管理(四)-统一监控管理

前几章介绍了DELL服务器的远程管理功能(以DELL为例,HP,IBM等也都有类似的功能模块),当我们服务器很多的时候,我们不可能每天每台服务器都去查看一下硬件状态,因此我们希望有一个统一的平台,硬件有问题时自动给我们发一个警报邮件,或者我们每天登上统一平台扫一眼,无警报信息,我们就可以安心做其他事情去了. DELL提供了一个这样的统一管理平台软件,而且是免费的(个别高级功能需收费,但一般免费的功能即可满足日常监控使用).这个软件就是:OpenManage Essentials . 先来看看界面

江西畅行高速IT运维监控平台--PIGOSS BSM

案例所属行业:高速公路行业 项目实施时间:2014年 1.1    项目背景     江西畅行高速工程(以下简称"畅行高速")与高速公路周边系统的建设基于用户的消费账户支付系统和结算系统.既包括高速公路的收费,也包括高速公路周边的连锁超市的消费,互联网业务为江西畅行高速周边服务. 目前,江西畅行高速进行网络建设和核心生产平台应用系统的建设.随着江西畅行高速信息化应用的不断推广,核心生产平台的稳定运行对项目的影响越来越大.随 着更多江西畅行高速业务系统上线运行和日常办公对业务系统的日益依

【项目动态】PIGOSS BSM IT运维监控平台 北京万兴建筑集团有限公司

案例所属行业:企业集团 项目实施时间:2016年 1 项目背景 北京万兴建筑集团有限公司成立于1985年,是一个以房建.市政.装饰.地产开发为四大支柱产业的大型综合性建筑企业集团.万兴集团注册资本金3.06亿元,现有总资产10多亿元,企业拥有一大批高素质专业技术管理人才,其中中高级职称专业技术人员300余人,国家一级.二级 注册建造师200人.年开复工面积500万平方米左右,建安产值约50亿元左右.万兴集团还积极参与社会公益事业,累计捐款1000多万元. 为保障各项业务的稳定运行,需要对IT基础

【开源】.net 分布式架构之监控平台

开源地址:http://git.oschina.net/chejiangyi/Dyd.BaseService.Monitor .net 简单监控平台,用于集群的性能监控,应用耗时监控管理,统一日志管理等多维度的性能监控分析. 集群的性能监控:(需要服务器部署监控节点) 1. 目前仅支持windows服务器监控, 2. 支持windows自带的性能分析器所有配置项监控,及预警的定制. 3. 支持自定义的插件扩展服务器采集dll进行各类性能采集及预警的定制. 4. 支持性能采集快照. 5. 支持cp

企业运维监控平台架构设计与实现(ganglia篇)

一.Cacti/Nagios/Zabbix/centreon/Ganglia之抉择 1.cacti Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具. 简单的说Cacti 就是一个PHP 程序.它通过使用SNMP 协议获取远端网络设备和相关信息,(其实就是使用Net-SNMP 软件包的snmpget 和snmpwalk 命令获取)并通过RRDTOOL 工具绘图,通过PHP 程序展现出来.我们使用它可以展现出监控对象一段时间内的状态或者性能趋势图. 2

监控平台架构设计

花了两个小时设计的高富帅方案(UPP监控平台架构设计) 目录 UPP监控平台架构设计 1.引言 1.1背景 1.2编写目的 1.3定义 2.范围 2.1 系统主要目标 2.2主要软件需求 2.3设计约束.限制 3.软件系统结构设计 3.1.监控方案: ①传统方式: ②改进方式: ③继续改良方式: ④高富帅方式: 3.2软件体系结构 3.2.1结构图 3.2.2功能模块说明 4.主要技术介绍 监控系统搭建 日志拷贝 日志分析程序 5.需要硬件 UPP监控平台架构设计 1.1背景1.引言 随着接入U

全新SaaS运维监控平台构建书

第一部分 引言 伴随的IT服务的发展,IT服务的概念也在发生着巨大的变化.IT运维服务已经由原来局限在用户自身环境下的IT服务,延伸到覆盖公用云.私有云.外包服务商等多纬度.全天候的SaaS运维模式, 从狭义理解,IT服务仅仅是为了解决信息系统出现的故障,在系统出现停顿的时候可以快速的恢复.而目前的IT服务已经包含了更多的内容,IT服务渗透在信息系统的整个生命周期之中.本文基于该理念,对IT服务系统的实现进行分析研究.文章基于网脊运维通SaaS(Software as aService)模式理念