SCO自动关闭警报流程方案
----利用SCO流程自动关闭警报规则产生的警报
背景
SCOM规则类警报评估是否能实现状态恢复后告警自动关闭,包括SCO流程触发的警报也一样要实现状态恢复后告警自动关闭;
跟进结果:微软已经给予答复,规则类警报在处理故障恢复后是不会自动关闭的,这个在产品设计初衷就是这样设计,故没有解决方案,拒绝开case。
建议方案:微软建议设置定时自动关闭(目前默认为7天),不过这种方案对环境来说无意义。
SCOM警报主要是存在两类警报:警报监视器、警报规则。
由于SCOM自身设计的逻辑,警报监视器可随监控对象即时状态进行更新(升级、消除警报),;而警报规则不同,根据设定的警报阈值只需满足是警报阈值即可触发警报(不论是否已存同样的警报,不可消除)。
对于警报规则,在生产环境中,往往使用的较为广泛,会导致需要人为去关闭警报(工作量大,另外由于存在过多过期无用的警报,也会对运维排错造成不必要的警报干扰,增加了运维成本)。
解决方案
开case只是局限于System Center 中的一个单独组件,那么,要是想打破局限,找到可行的解决方案,就必须跳出既定的范围,可以发现SCO作为System Center各个组件的调度中心,于是“SCOM规则类警报评估是否能实现状态恢复后告警自动关闭,包括SCO流程触发的警报也一样要实现状态恢复后告警自动关闭”的问题就有了解决的方案。实际上这两个问题根本需要解决的只有一个。
”由于规则无法检测是否已经解决了问题,因此无法自动清除规则中的警报。监视器可以在满足其运行状况状态的条件时检测是否已经解决了问题,因此可以自动解决警报。“
经验得知,SCO通过集成包控件在SCOM中生成警报,属于警报规则。
利用SCOM集成包中的几个警报控件,通过自定义警报关键字,多个控件共同协作,同时加以判断条件,从而实现SCO流程自动关闭SCOM中的指定的警报。(当然也可以关闭警报监视器,只是没有必要重复SCOM的工作,可看实际环境的需求进行设计)
附:经验之谈随手甩个锅
2个“凡是”
A凡是警报规则--需手动关闭警报;
B凡是警报监视器--可自行消除,注手动关闭监视器前需重置状态(在已经确保故障解决可不操作)。
--这里不做细节的描述,具体说明可移步到官方网站查看
https://technet.microsoft.com/zh-cn/library/hh457603.aspx