什么是CPR式的IT运维管理?CPR(Cardiopulmonary Resuscitation),是医学术语“心肺复苏”的简称,是指心搏骤停一旦发生,就必须立即在现场进行心肺复苏CPR,以挽救患者的生命。
想想我们的IT运维场景,是不是也会经常出现IT运维式的CPR呢?当客户先于我们发现运维事件时,我们的运维人员除了迅速变身为IT医生,前往现场实施CPR式的运维处理外,剩下的就只有尴尬和忐忑了。
作为一个IT运维人,闲暇时我总是问自己:从事运维有没有前途?
论职位,在一般企业最高级别到中层。
论收入,在任何企业肯定不会超过核心业务部门员工收入。
论压力,出现问题永远是运维在背锅,因为不管什么起因,最终的操作人员都是运维。
运维是一个要求沉下心、不断精益求精的职业,而当下浮躁式运维非常多。
浮躁式运维有以下七个迹象:
1.数据从不备份或者很少备份。数据是企业运行的基石,备份是使自己处于不败之地的终极武器。备份应该有计划性,重要业务的备份应该实时备份。
2.没有回退方案,没有checklist就做变更。变更只存在自己的脑子里面,不做文字记录,没有书面操作步骤。变更流程都是事故的积累总结,经过血的教训总结而成。
3.CPR(COPY、PASTE、RUN)运维,从不从原理上了解。经常百度一篇攻略,复制、粘贴、运行,应用配置好就认为万事大吉,不追求原理和细节。
4.不会写脚本,工作不自动化。目前最热的名字之一就是智能,每天都在做重复工作的人,迟早会被机器代替。
5.不进行系统化的学习。当今手机端的各种诱惑太多,也有许多技术干货。但请注意,这些干货都是碎片化;知识只有体系化,才能被掌握并真正发挥价值。
6.对运维工作没有兴趣。每天希望事情尽量少,最好是不做事情。
7.不锻炼表达能力,不寻求团队的力量。现代社会连接更加紧密和多维度,不善于和别人沟通,不让别人认识自己,就是在放弃自我。
接下来,我们就谈谈如何改变这种现状,给有同样苦恼的运维人士支支招。
当今社会是信息化应用与社会发展深度融合的时代。传统的信息系统架构正在向云计算和移动互联方向发展,ITIL、ITSS、Devops等运维管理方法和理论已非常完善,更需要我们做到“因地制宜”和“活学活用”。
无论是服务需方的信息中心,还是服务提供商,要想下好IT运维管理这盘棋,首当其冲要做好整体布局和规划,重点考虑的内容包括:运维管理的目标、客户需求、运维人员配置、组织架构建设、运维管理制度和流程、核心运维对象的识别、运维所需技术手段、运维资源配给等,需要建立一套环环相扣系统化的管理体系模型,并通过综合运维管理软件平台进行持续执行和贯彻。
我们举例谈谈如何建立满足普遍管理需求的管理体系和软件平台,以及这套体系最终能给我们的运维带来哪些好处和帮助。
背景资料:中等信息化规模的制造型企业,运维团队15人。
运维管理目标:建立看得见的运维管理体系,重点实现运维对象运行状态可视化、未来运行和容量趋势预测可视化、服务绩效分析评价可视化和内部绩效分析评价可视化,以此作为决策和服务持续优化的数据支撑。
运维管理原则:充分应用各项运维自动化手段,重点在运维监控/巡检、安全监控/巡检、资产配置管理、服务流程、运维操作审计追溯、信息系统运行和服务趋势预测分析等方面实现自动化,使运维人员精力投入到系统优化和服务改进等方面。
运维管理体系模型:
(1)运维对象:至少包括数据中心及基础设施、网络、IT基础架构、应用系统、数据、安全等六项重点保障对象。
(2)人员:重点是建立职责清晰、角色明确的运维组织,为下一步进行闭环的运维流程化管理做准备;后续,还应该考虑建立应急响应组织。
(3)管理制度和评价指标库
管理制度和评价指标库是整体体系的基础,起着承上启下的作用。管理制度,除常规制度外,还应体现人员绩效、晋升、培训等方面的内容。评价指标库,应包括上述六项重点运维对象的运行/性能/告警、应用系统的容量趋势、数据完整性/备份、安全态势/漏洞/攻击、服务过程管理、业务用户满意度、团队内部绩效、运维整体趋势分析等方面的指标,并持续进行优化完善。
(4)技术:充分利用市场上主流的商业和开源技术,逐步在运维巡检、故障分析、资产配置管理、服务过程管理、运维操作管控、运维审计、趋势分析等方面,实现以流程驱动的运维自动化管理。重要的技术手段包括:数据中心基础设施监控、网络监控、端到端的业务性能监控、数据备份状态监控、自动化的资产配置操作管理(开源技术:Puppet、Ansible、Saltstack等)、以变更和发布为代表的服务过程管控、移动运维APP应用等。
(5)资源:指为了提升运维效率和质量所需的一切资源,包括人员、技术、工具等。在这里,重点强调知识库和CMDB的建设和维护。知识库和CMDB要不要建?很多运维主管还在犹豫,在我们看来一定要有。因为这两项包含了可供运维人员参考的知识资源和运维基础信息,可提高运维效率。怎么建呢?一定需要制度、专职角色(比如:知识库管理员、资产配置经理)、技术工具配合在一起才能发挥应有的效益。
(6)过程:运维流程化管理贯穿整个管理体系,是运维部门主要的工作抓手,是运维自动化、服务规范和量化管理的基础。在这里,强调如下几项流程应在日常运维过程管理中得到重点应用:
a)变更/发布流程:据统计,70%等运维事件是由变更/发布操作不当引起,多数是因为未采用变更审批流程/管控流程所致。我们所接触到的很多客户,认为变更流程操作复杂而不愿意应用,殊不知这样反而缺少了一道堵住变更风险的高墙。建议运维业务比较复杂的用户,一定要使用起来,我们可以协助梳理和落地。
b)备品备件管理流程:建议存有备品备件场景的运维客户要注意使用备件管理流程,管理重点包括备品备件的出入库管理、库存的统计、以及重要备件的定期可用性测试。
c)应急响应流程:应急响应流程是日常运维管理的重要组成部分,IT运维主管部门应面向数据中心、网络、IT基础架构、应用系统的薄弱环节,建立应急响应流程和应急预案。管理重点包括定期的应急演练、数据恢复演练、应急预案的培训和宣贯、应急处置后的总结和回顾等。
(7)运维管理系统:管理体系建成后,一定要建设相对应的运维管理系统来贯彻上述的各项要求。系统建设的原则应以满足现有问题的解决和需求为主,功能兼顾实用和可视化展现;后续可根据当时运维业务的变化追加功能模块,这是一个逐步完善的过程。
说了那么多,我们的IT运维人都能从中有所感悟呢?IT运维管理是一个非常有前途的专业领域,已经受到整个IT行业的重视,IT运维管理未来的发展方向一定是自动、规范、智能、可视。作为IT运维从业人员的职业规划,我们的建议是,与其把时间和精力花在不停的选择上,还不如在一个领域或行业持续深耕积累。一些技术深度还不错、协调和推进能力比较强的同学非常适合转型管理职位,长远的发展一样目标是CTO、CEO,所以各位小伙伴一定要努力追求卓越,一起加油!