运维监控系统 PIGOSS BSM 为银行运维监控提供全力保障

IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重要。

从信息系统期理论出发,信息系统大致分为规划与设计、开发与测试(或购买)、实施、运维管理与持续改进五个阶段。而前三个阶段从时间角度看,只占整个周期的20%,其余时间基本上是对其进行运行维护。这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。

一、IT运维监控指标体系研究的背景和意义

1.业务发展的客观需要

为了充分发挥运维监控的预警作用,逐步提升各类运维监控指标的覆盖率和完备率,我们需要建立一套系统、规范、面向业务服务的运维监控指标体系。在管理层面,该指标体系旨在让企业管理者花更多的时间在决策上,而不是用于了解复杂、繁琐的IT细节上;从服务定义、服务水平管理、服务监 控、服务诊断的角度,让管理者一目了然;既满足企业要求的服务水平,确保最佳的业务系统表现,又辅助整个企业的业务运营与IT决策。

在技术层面,该体系既可以丰富开发新业务系统时的非业务功能需求,使开发团队在系统设计阶段,就把以后运维阶段需要关注的监控指标内嵌到应用系统中,起到 “未雨绸缪”的作用;又可以在老系统改造过程中增加指标的监控功能,起到“亡羊补牢”的效果;同时,该指标体系对于运维团队全面、有效地部署和配置各类运维工具也起到“有的放矢”的指导作用。

  1. 监管导向

    根据银监会《商业银行数据中心监管指引》第二十六条第八款“应集中监控重要信息系统和通信网络运行状态。采用运维监控工具,实时监控重要信息系统和通信网络的运行状况,通过监测、采集、分析和调优,提升生产系统运行的可靠性、稳定性和可用性。监控记录应满足故障定位、诊断及事后审计等要求。”为了满足上述 要求,迫切需要建立一套切实可行的运维监控指标体系来指导监控和分析工作,促进运维管理工作的系统化和规范化,降低运维风险。

二、IT运维监控指标体系的研究

在系统资源层面可以分为数据库类、中间件、操作系统类和存储四大类。其中数据库类的指标可以分别反映服务器的运行状态、实例的运行状态、会话数、锁资源和 监听器的运行状态。中间件类根据不同的使用特性,如业务中间件、消息中间件等,细分为WAS、Weblogic和MQ三种。操作系统类可以按照使用环境分 为Windows、Linux和Unix三种,客观反映各种主流操作系统的运行状态。存储系统类可分为光纤交换机、光纤交换机端口、存储系统、XP存储系 统和光纤链路,客观反映存储系统端到端的运行状况。

在网络层面按照管理特性可分为网络或安全设备的处理器、内存、风扇、温度、电源、系统、设备端口、运行协议等不同纬度客观反映网络环境的运行情况和运行质量。

在机房基础设施层面可以按照管理设备种类分为电量仪、UPS、空调等,反映机房基础设施的使用情况和运行质量。

上述领域的监控指标通过标准化的数据采集接口收集整理、分类汇总和关联分析,进行IT统一运维监控管理,实现了事件管理、性能管理、告警管理、故障分析等风险处置功能。同时还能提高运维管理工作(跑批、备份、版本、维保、值班、资产等)的日常监督和及时提醒功能。

三、IT运维监控指标体系的构建方法

为了促进监控指标有效落地,充分发挥监控预警作用,需开发和运维团队积极配合,围绕逐步优化和完善指标体系开展工作,从指标梳理、指标设置、指标权重计算、指标评估、体系建立五个阶段,形成持续优化的闭环工作过程。

1.指标的梳理

各开发和运维团队需要根据业务特点和系统情况,结合实际运维工作需要,采用专家经验法,以调查问卷的方式选取相应的监控指标形成特定的监控指标集
针对性能类指标,指标阈值是衡量应用系统性能容量是否正常、是否需要优化或扩容的量化依据。可以将阈值分为基准阈值、关注阈值和告警阈值三种。

基准阈值是指信息系统正常运行状态下的标准值,即该系统在业务时段,性能容量指标正常运行时的数值。关注阈值是指分析评估信息系统是否需要优化的临界值, 其数值是在基准阈值的基础上上浮一定比例,具体比例应根据信息系统的特点而定。告警阈值是指信息系统要进行扩容的临界值,仅需对关键指标设定该类阈值。

理想情况下,阈值的设置应遵循“基准阈值<关注阈值<告警阈值”的原则;阈值的初始设置可依据系统的运行特性,结合专家经验而定,在实际使用过程中,可根据指标监控情况进行调整。

2.指标的设置

在指标梳理的基础上,各运维和开发团队应对监控指标集中每个指标进行科学的设置,设置内容包含指标采集方式、采集频率(采样间隔)、指标数据类型、触发告 警条件、告警级别、告警描述、指标数据输出接口类型和字段格式等对于关键指标应明确标识,例如在指标名称前加*号标识。

对于关键性能类指标还应明确其阈值的设置,

3.指标权重的计算

在设计指标权重时,各使用部门可以使用专业的层次分析法进行定量计算,也可以使用通常的专家经验法进行定性划分。层次分析法的好处是可以解决因子分析法有时无法采集数据的缺陷,且通过指标间的两两比较,在确定多指标的权重时,较他方法而言更可靠和准确。而专家经验法在评判权重时相对简单,但缺点是因指标太多,无法综合判断导致的指标权重不准确,需要后期持续优化。

4.指标的评估

实际运维工作中,在充分发挥各类监控指标用途、又不影响正常的业务生产活动时,为了推动运维管理质量的提升,需要遵循SMART原则对指标进行评估。即:S代表具体(Specific),是指监控指标要有针对性,不能笼统;M代表可度量(Measurable),是指监控指标是可量化的,验证指标的数 据或信息是可获取到的;A代表可实现(Attainable),是指监控指标可以通过现有技术手段或工具采集到的;R代表相关性(Relevant),是 指监控指标与其他指标存在逻辑上的相关性;T代表时限性(Tine_bound).是指监控指标的获取要有时间周期的限制。

5.指标体系的确定。经过上述过程,明确了哪些指标需要监控,指标之间的层次和依赖关系,重要程度等信息。通过这些信息,就可以清晰地构建一个层次化的指标体系

四、小结

建立IT运维监控指标体系是提升运维管理、ITIL落地实施中最为基础,也是最重要的环节。今后我们对于系统运行健康状况的判断,不仅可以像中医一样的“望、闻、问、切”,还可以像西医一样的“×××、化验、做CT、专家会诊、打疫苗和预防宣传”。从而让“定量分析”与“定性判断”相结合,“运维经验” 与“实时数据”相结合,“前期开发”与“后期运维”相结合,打通系统开发和运维管理工作界面,使IT统一运维监控管理不仅为防范运维风险提供及时预警和综 合分析功能,同时也为优化应用系统性能提供了详实和科学的参考依据。

原文地址:http://blog.51cto.com/13491925/2343843

时间: 2024-08-10 17:06:17

运维监控系统 PIGOSS BSM 为银行运维监控提供全力保障的相关文章

运维监控工具之pigoss bsm问题汇总(四)

PIGOSS BSM 监控管理平台系列产品作为网利友联公司自主知识产品的核心竞争产品,实现了对客户数据中心所有IT系统的全方位运行监控. 监控范 围覆盖网络运行监控,主机运行监控,数据库运行监控,中间件运行监控,虚拟化平台运行监控,存储运行监控,Web服务质量监控等等.同时帮助客户梳理IT 组件运行状态对每一个业务的关联影响关系,生成可视化的业务拓扑监控视图.该产品于2009年荣获了由中国计算机报主办的辉煌60周年o中国IT产业信赖 产品金奖.        PIGOSS-IVI版为网利友联公司

金融行业进入智能运维时代,PIGOSS BSM 鼎力保障业务安全

上海某集团拥有多个分支机构,并充分发挥混合业经营优势,建立了专业化.多功能的金融服务平台,该金融平台是经×××批准,以加强企业集团资金集中管理和提高资金使用效率为目的,为集团成员单位提供财务管理服务的非银行金融机构.公司以集团企业金融服务需求为导向,在传统存贷业务基础上,逐渐培育起资产管理.投资银行.租赁.保险等多种业务,并与其它金融机构紧密合作,不断创新产品.创新服务,努力为企业客户提供有效的个性化金融服务. 运维挑战 随着国内金融行业IT系统数据集中.业务集中,IT系统规模逐渐增大,关联关系

江西畅行高速IT运维监控平台--PIGOSS BSM

案例所属行业:高速公路行业 项目实施时间:2014年 1.1    项目背景     江西畅行高速工程(以下简称"畅行高速")与高速公路周边系统的建设基于用户的消费账户支付系统和结算系统.既包括高速公路的收费,也包括高速公路周边的连锁超市的消费,互联网业务为江西畅行高速周边服务. 目前,江西畅行高速进行网络建设和核心生产平台应用系统的建设.随着江西畅行高速信息化应用的不断推广,核心生产平台的稳定运行对项目的影响越来越大.随 着更多江西畅行高速业务系统上线运行和日常办公对业务系统的日益依

运维监控工具之pigoss bsm使用问题:灵活设置及告警屏蔽

PIGOSS 运维监控系统作为网利友联的主打品牌,已成为追求基于ITIL标准ITSM的大行业客户和 IT 服务商首选运维监控平台.无论是存储监控Oracle监控.虚拟化监控还是基本的网络监控,PIGOSS都可以轻松应对.PIGOSS 产品架构的开放性,及我司深入行业应用的定制支持,使得PIGOSS在IT运维监控领域成为独树一帜的运维监控工具. pigoss bsm  使用问题之:  1. pigos bsm 采集周期和时间能否针对每个性能进行灵活设置?    可以,监测的可配置项目包括:轮询间隔

小米开源监控系统Open-Falcon安装使用笔记

前言 近期爆出Zabbix有严重bug,加上一直对zabbix的性能.UI不满.所以这次想钻研一下最近很火的open-falcon,源于小米公司的开源项目,赞一个. 一.官网介绍 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题.监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择.当公司刚刚起步,业务规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省时省力,效率最高的方案.之后,随着业务规模的持续快速

庖丁解牛(一):监控系统

好朋友"雪糕"是前Baidu的高工,当年我们一起参与构建了一个庞大的运维自动化系统Noah.转载一些他的关于监控系统的感悟,我也深有同感. 我们在后来也用Python写了个简易版:51reboot/rebootMon-4 · GitHub 最近借着出去分享的机会,画了张简化的监控系统架构图: 写在前面 我从事运维自动化相关的工作,也已经8年了.当初刚开始做的时候,运维开发(devops)这词还不火.很少人知道.国内对运维的理解,也就是机房.服务器.苦逼的7*24小时值班.甚至当时还流传

开源IT监控系统对比

应邀对开源IT监控系统进行对比,选取了Nagios.Cacti.Zenoss.Zabbix.Hyperic HQ做为对比样本,帮助读者选择开源的IT监控系统作为底层,开发所需的监控运维工具. 1 背景和目标 1.1 前言 随着SaaS.P2P等各类在线应用的兴起,使得各类在线应用服务公司采购了大量的服务器等IT设施.而如何对庞大的IT设施进行有效的监控和管理,一直是很头疼的问题.以往,网络监控软件都是商业软件的天下,主要是BMC Patrol.CA Unicenter.HP OpenView或I

明晚九点|一线互联网公司服务器监控系统架构分享

主题:一线互联网公司服务器监控系统架构 内容: 自动运维的一点体会 性能与可用性可扩展 功能可扩展 监控支撑业务扩展 主讲师:PC 老师 大学时期就负责学校官方网站的运维工作,实习期间加入豆瓣,有幸成为豆瓣 Top20 员工,从事 Python 开发及运维工作,后在 BAT 从事自动化运维,见证BAT 运维自动化从无到有.擅长系统底层.分布式系统开发,热衷于开源运动,给 memcached.[email protected] 等多个开源项目贡献过代码. 自动化运维的一点体会 不同公司的需求差异

七周一次课 监控系统状态命令

监控系统状态作为一名运维工程师,我们一定要了解我们的系统,如果出现问题,我们要查看哪里出了问题,有什么样的症状.如果我们要查看系统资源耗费情况.需要怎样查看呢?[[email protected] ~]# w20:44:47(当前时间) up 7 min,(启动多长时间) 1 user,(几个用户登录,他可以在第二行详细的看出) load average: 0.00, 0.04, 0.05(重点看系统负载)USER (用户) TTY (登录的终端) FROM(从哪里登录来) [email pro