关于银行业智能化运维建设思考

关注嘉为科技,获取运维新知

一、现状:银行运维工具已实现技术条线全覆盖,但基于运维管理的全流程自动化、智能化尚停留在研讨阶段

根据银监会编制的《中国银行业信息科技“十三五”发展规划监管指导意见》,其中“第九章 第三节 提高运维自动化水平,打造智能化运维体系”中明确提出对运维自动化智能化的指导意见:

提高基础资源和应用部署的自动化水平,实现快速交付、动态调整、弹性部署,降低人工操作风险,自动化部署比例不低于75%。

持续推进生产运维监控精细化、自动化、智能化建设,强化系统风险和故障的早预警、早定位和早处置。

实现应用层面交易全流程、全节点监控全覆盖,结合应用系统交易特性及相关数据的分析对比,提升交易过程监控的智能化水平。强化容量管理,做好相关资源的动态规划,预防非计划性、突发性的容量瓶颈问题发生。

强化运维、开发、安全、风险管理的信息共享和一体化协作,提升多方联动能力。加强运维大数据分析,利用运维大数据加强业务风险防控,探索利用运维大数据推动业务流程优化并支持业务创新。”

—— 摘录自《中国银行业信息科技“十三五”发展规划监管指导意见》

——汪曾祺

在运维建设较前的银行业及互联网企业的建设经验中,平台化和智能化已成为运维体系发展的大趋势。以阿里经验为例,将运维发展分为五个阶段,分别为L1-脚本运维、L2-工具化运维、L3-平台化运维、L4-数据化运维、L5-智能运维。随着运维管理手段的推陈出新,逐渐地提升“系统”在执行和决策环节中的比重,从而不断降低人工参与度,如下图:

参考网址https://yq.aliyun.com/articles/637988

在工具化运维阶段,传统运维建设模式基本以烟囱式为主,每个烟囱只为了解决单一的运维场景,如应用发布、系统监控、数据提取等。

随着新技术不断在信息化建设中应用,带来了操作单元海量化、版本更新频繁化、监控粒度细致化等问题,烟囱式的建设模式已经难以满足运维发展的要求。

随之而来,各个企业开始向着平台化、一体化的方向发展。如腾讯公司的思路是采用SOA和PaaS的技术架构模式,在PaaS内将各能力封装成各类原子平台并自动化,如配置平台(CMDB)、作业平台、容器平台、数据平台(AI)等,而后通过任务引擎将分散在个原子平台的功能,根据不同的场景重新连接成“串”或者“树状分支结构”实现全自动化、智能化。

目前大多数银行的数据中心经过多年建设,尚处于从“工具化”向“平台化”过渡阶段,已经建立较为全面的IT架构基础平台,监控与流程均有一定的建设。如统一配置管理(HP UCMDB、Remady CMDB)、监控系统(Zabbix、HP OVO)、流程管理(BMC Remedy)、自动化控制(HP SA、BMC Bladelogic)……等。

而IT运维管理建设多采用产品采购模式,但随着积累的运维工具数量持续累加,繁杂的烟囱式应用使运维效率难以继续提升,其主要体现在以下几个方面:

系统故障定位时间长,无法达到精准化报警,难以快速解决问题。

难以评估系统当前和未来对资源的需求,以及资源分配的合理性。

运维数据普遍存在分散、标准规范不统一、数据使用不规范等问题。

二、IT运维自动化、智能化的转型升级之路

随着云计算、微服务在企业信息化建设中的大量应用,IT运维岗位正在从资源管理向应用运维、从运维保障向业务运营、从低价值劳动向高附加值服务转型发展。

而在这个过程中,运维平台化和运维数据化的建设至关重要。

一定要充分利用数据,这里的数据指的是运维数据,如性能监控数据、运行日志数据、变更操作记录等等,尽可能的接入更多的种类的数据。

利用这些数据,通过大数据和机器学习的技术,实现业务系统精准建设、系统资源精准配置、风险隐患精准控制,最终促进降本增效的目标。

由于目前银行中运维管理建设还采用传统分散建设,各种烟囱式的系统之间数据存在数据重复、数据割裂、数据不准等问题,为运维数据化建设带来了极大的困难,具体体现在如下几个方面:

系统间信息不能共享,难以形成整体,缺乏效率难题持续提升。

由于信息和功能不能共享,须在多系统内重复建设基础功能和数据。

场景覆盖面不足,现有功能点无法跨多个系统进行场景式的编排。

为了解决分散的烟囱模式给运维管理建设过程中的问题,尽快实现平台化和数据化的目标,急需通过顶层设计,实现有效整合,建立一体化的综合管理平台,实现数据集中存储,统一分析,集中展示,高效处置。

参考腾讯、阿里顶级互联网公司的建设经验,建设“平台层”来整合各烟囱式运维应用的功能和数据,从而构建一体化运维综合管理平台。基于一体化的运维平台建设遵循原则如下:

1) 一体化平台:采用“平台+应用”的建设模式。

2) 功能全覆盖:构建监、管、控于一体的运维管理。

3) 自主可控:通过平台的模式将运维开发的能力交付给用户。

4) 先进技术架构:构建一套高可用、高性能安全运行系统。

基于上述原则,规划一体化平台如下图所示:

① 服务层面向用户、管理者、维护人员输出友好、便捷、高效的IT服务。

面向用户提供更多的自助式服务。

面向管理者提供灵活的可视化服务。

面向维护人员提供丰富的自动化服务。

② 平台层是关键,通过平台层将新旧能力层系统整合在一起,产生联动效益。

构建统一的API服务网关和调度编排引擎,将能力层的各种能力对接到平台层。

构建统一门户、4A集成、工具市场等易用模块,增强运维管理一体化能力。

构建工具开发框架和运行托管环境,简化工具建设成本。

③ 能力层包括过往已有的运维管理系统,以及未来继续扩展的管理系统。

随着技术的发展,需要补充运维大数据平台、人工智能(AI)平台、容器管理等。

已建成的功能模块需要持续优化和更新,适应新业务、新技术、新管理的要求。

④ 采控层是在最底层规划建设的统一采控通道,从底层保证数据一致性和准确性。

运维管理建设是一个长期的过程,不能追求一蹴而就,需要分阶段稳步实现。参考运维技术的发展过程以及先进单位或互联网公司,演进路径大致如下:

平台化:利用PaaS技术实现平台层,建设一体化平台的基础框架。并在平台层中将现已有的运维管理系统集成起来,从而实现一体化平台的基础框架。初期在平台层之上开发3~5个运维管理工具,作为整合型运维管理工具的试点场景,并持续不断的组装工具以满足运维管理的方方面面。

数据化:在能力层内建设运维大数据能力,将散落在各运维管理系统的数据归集起来,形成运维数据仓库。继而在实际的运维管理工作中,探索数据挖掘场景,利用大数据计算和分析能力辅助管理决策,实现初阶AIOPS场景。

智能化:正式将人工智能(AI)应用于运维管理中的工作场景中,利用上一阶段积累的数据样本和决策模型,通过机器学习手段解决提升“AI”在管理决策中的占比,实现根因定位、容量预测等高阶AIOPS场景。

然而运维大数据技术经过近年的快速发展,相关技术的应用已经基本成熟,根据银行业的现实状况,可以在首期项目中就实现“运维大数据的归集”和“大数据应用场景的探索”,从而形成“两步走”的建设思路:

“如何利用智能化手段提升运维管理”的研究浪潮已经掀起,部分互联网和银行已经进行了部分尝试并取得了一些效果。顺应时代发展趋势,展开智能化探索,才能主动赢得运维管理的未来。

原文地址:https://blog.51cto.com/11811406/2377957

时间: 2024-08-03 18:49:17

关于银行业智能化运维建设思考的相关文章

关于安全运维的思考

1.是什么? 简单说,是从安全角度关注日常信息系统的运行维护工作. 具体来说,安全运维基于传统的网络.主机.终端.视频等运维工作,从中获取原始的数据与信息.与传统运维工作的共性在于,都是基于需求/事件/故障触发,两者都会从管理和技术角度关注事件/故障的产生原因.解决过程与手段.区别在于关注侧重点的不同,传统运维更多关注信息系统的实现与正常运行,以及在此过程中的相关技术与实现手段:安全运维则会同时借鉴攻击者和防御者的思维,主动发现现有系统与网络中存在的问题与潜在的风险,提出相应解决方案,尽可能在问

[运维] 第二篇:数据中心运维IT运维项目建设之我见

运维项目千千万,今天重点讲一下IT服务管理的项目,也是在过去几年各个企业数据中心都在建设的东东:ITIL.综合监控和运维自动化.先看ITIL逻辑架构图:         这是根据ITIL最佳实践理论和企业运维实际结合的ITIL逻辑架构图.最底层是基础架构管理层,在架构管理层运维人员通过人肉或工具对IT环境进行管理.综合监控平台的建设基本上在这一层,综合监控平台的目标是"全监控和全覆盖"(关心综合监控的朋友可以看我其他的监控帖子).监控的核心是什么?综合监控管理平台.通过综合监控管理平台

[转载] 运维的美丽新世界

原文: https://mp.weixin.qq.com/s?__biz=MzA4NjAzMjEyOA==&mid=207485444&idx=1&sn=c0d5e1b2399fffbcdc5a5065eea52af8&scene=1&key=0acd51d81cb052bc4658e34009cba65ba8c1959d41b5bbb78bafea5d8eb3ebb458e46d76c53cb539b02ce1b5b4365c46&ascene=0&

如何打造一个高逼格的云运维平台?

导读 在标准化实施完以后,由于数目的增加,或者是一些运维场景的增多,我们会逐步的进行一些工具化和自动化,这个阶段我们的运维的效率得到提升.但是众多的工具以及自动化脚本,会让我们的管理过程中比较困难,随着人员的变动或者是一些工具维护过程中的差错,我们的自动化运维工具的受众群体不太稳定. 前言 大家做运维普遍经历这样的过程: 首先我们会把操作做一个标准化,这个阶段是运维质量的提升的阶段. 在标准化实施完以后,由于数目的增加,或者是一些运维场景的增多,我们会逐步的进行一些工具化和自动化,这个阶段我们的

GOPS2017全球运维大会深圳站——国内顶级运维专家云集

GOPS在2016年从深圳出发,当时门票提前几周收盘,一年之后承载着运维人的期望,GOPS再次来到了深圳.第六届GOPS2017全球运维大会  深圳站(本次)将于2017年4月21日-22日在深圳举行,历届金牌讲师精选亮相,各种精彩等您发掘. [大会亮点] 一.众多国外重量级嘉宾在路上 目前正在和各位大咖商榷行程中,主会场更配置了同声传译,让你在国内也能听到国际范的运维经验分享:) 二.国内顶级运维专家云集 前5届GOPS已经汇聚了众多运维行业的大咖,他们有来自精益运维的王津银:腾讯的党受辉.熊

运维相关概念整理

运维工作的发展历程简要梳理 由最初的手动执行-->整理文档,制定规范,逐步实现标准化后才能批量操作-->工具化编写简单的工具,实现初步的工具化-->借用脚本或者编程能力实现自动化-->根据大量的数据和案例实现智能化 运维自动化的步骤的三个层级 Bootstraping,系统安装:装机层级,可以在裸机上(cobbler),或者在虚拟化上安装,工具如下 裸机:pxe, cobbler 虚拟机e:image file template(通过创建合适的示例作为模板) Configurati

一目了然“之IT运维可视化,让运维不再说难!

前言 可视化,就是把复杂抽象的数据信息,以合适的视觉元素及视角去呈现,方便大家理解.记忆.传递!这里,我们来聊聊IT运维可视化. 关于IT运维可视化,我认为是将整个运维过程的关键环节或重要环节,比如运维看不见但又必须管的"数据黑匣子",用可视化技术形象直观地展现出来.一方面,可视化成就了运维.可视化将运维数据公开.透明,实现数据分享,让运维数据成为运维体验.另一方面,可视化代表了运维.运维可视化实现程度的高低,在一定程度上反映出我们对运维工作的理解程度.可视化程度越高,运维就越简单,运

智能运维就是由 AI 代替运维人员?

听了有关AI运维之后有很多人感到比较焦虑,我所从事的运维或开发将来会不会被AI给替代掉呢? 现在新技术发展的特别快,各种语言.技术.理念让大家确实感到自顾不暇跟不上趟,但是有一点,在这里我要特别重申一下,AI在目前这个阶段还是一种辅助大家来进行判断和学习.定位处理问题的工具,就像无人驾驶,现在可以做到完全没有人驾驶吗?肯定不行,未来无人驾驶是完全可以替代人的,但它还有很长一段路要走.AI运维就像无人驾驶一样,未来前景很光明,但任重道远. 大部分的智能运维还没有完全落地,我所在的企业也是处在一个探

3D可视化平台助力数据中心IT运维!

IT运维部门核心价值是保障业务系统的正常运行,而支撑业务系统的IT环境又非常复杂,涉及人力.网络.服务器.IDC.机柜.各类应用等等资源.任何一个环节出现问题,都将"牵一发而动全身".可见,IT系统资源监控与管理非常重要. 因此,我们需要将影响应用系统稳定运行的几个要素数据3D可视化.比如:基础设施资源使用情况:应用性能指标及系统整体运行情况,如这个系统是否可用.整体健康度等.总体来说,可以用到的常用可视化手段有数据统计.拟物化关系.流程关系.各种图表展现以及3D动画技术等. 在当下大