CPR式的IT运维管理,我们不要!

什么是CPR式的IT运维管理?CPR(Cardiopulmonary Resuscitation),是医学术语“心肺复苏”的简称,是指心搏骤停一旦发生,就必须立即在现场进行心肺复苏CPR,以挽救患者的生命。

想想我们的IT运维场景,是不是也会经常出现IT运维式的CPR呢?当客户先于我们发现运维事件时,我们的运维人员除了迅速变身为IT医生,前往现场实施CPR式的运维处理外,剩下的就只有尴尬和忐忑了。

作为一个IT运维人,闲暇时我总是问自己:从事运维有没有前途?

论职位,在一般企业最高级别到中层。

论收入,在任何企业肯定不会超过核心业务部门员工收入。

论压力,出现问题永远是运维在背锅,因为不管什么起因,最终的操作人员都是运维。

运维是一个要求沉下心、不断精益求精的职业,而当下浮躁式运维非常多。

浮躁式运维有以下七个迹象:

1.数据从不备份或者很少备份。数据是企业运行的基石,备份是使自己处于不败之地的终极武器。备份应该有计划性,重要业务的备份应该实时备份。

2.没有回退方案,没有checklist就做变更。变更只存在自己的脑子里面,不做文字记录,没有书面操作步骤。变更流程都是事故的积累总结,经过血的教训总结而成。

3.CPR(COPY、PASTE、RUN)运维,从不从原理上了解。经常百度一篇攻略,复制、粘贴、运行,应用配置好就认为万事大吉,不追求原理和细节。

4.不会写脚本,工作不自动化。目前最热的名字之一就是智能,每天都在做重复工作的人,迟早会被机器代替。

5.不进行系统化的学习。当今手机端的各种诱惑太多,也有许多技术干货。但请注意,这些干货都是碎片化;知识只有体系化,才能被掌握并真正发挥价值。

6.对运维工作没有兴趣。每天希望事情尽量少,最好是不做事情。

7.不锻炼表达能力,不寻求团队的力量。现代社会连接更加紧密和多维度,不善于和别人沟通,不让别人认识自己,就是在放弃自我。

接下来,我们就谈谈如何改变这种现状,给有同样苦恼的运维人士支支招。

当今社会是信息化应用与社会发展深度融合的时代。传统的信息系统架构正在向云计算和移动互联方向发展,ITIL、ITSS、Devops等运维管理方法和理论已非常完善,更需要我们做到“因地制宜”和“活学活用”。

无论是服务需方的信息中心,还是服务提供商,要想下好IT运维管理这盘棋,首当其冲要做好整体布局和规划,重点考虑的内容包括:运维管理的目标、客户需求、运维人员配置、组织架构建设、运维管理制度和流程、核心运维对象的识别、运维所需技术手段、运维资源配给等,需要建立一套环环相扣系统化的管理体系模型,并通过综合运维管理软件平台进行持续执行和贯彻。

我们举例谈谈如何建立满足普遍管理需求的管理体系和软件平台,以及这套体系最终能给我们的运维带来哪些好处和帮助。
背景资料:中等信息化规模的制造型企业,运维团队15人。

运维管理目标:建立看得见的运维管理体系,重点实现运维对象运行状态可视化、未来运行和容量趋势预测可视化、服务绩效分析评价可视化和内部绩效分析评价可视化,以此作为决策和服务持续优化的数据支撑。

运维管理原则:充分应用各项运维自动化手段,重点在运维监控/巡检、安全监控/巡检、资产配置管理、服务流程、运维操作审计追溯、信息系统运行和服务趋势预测分析等方面实现自动化,使运维人员精力投入到系统优化和服务改进等方面。

运维管理体系模型:

(1)运维对象:至少包括数据中心及基础设施、网络、IT基础架构、应用系统、数据、安全等六项重点保障对象。

(2)人员:重点是建立职责清晰、角色明确的运维组织,为下一步进行闭环的运维流程化管理做准备;后续,还应该考虑建立应急响应组织。

(3)管理制度和评价指标库

管理制度和评价指标库是整体体系的基础,起着承上启下的作用。管理制度,除常规制度外,还应体现人员绩效、晋升、培训等方面的内容。评价指标库,应包括上述六项重点运维对象的运行/性能/告警、应用系统的容量趋势、数据完整性/备份、安全态势/漏洞/攻击、服务过程管理、业务用户满意度、团队内部绩效、运维整体趋势分析等方面的指标,并持续进行优化完善。

(4)技术:充分利用市场上主流的商业和开源技术,逐步在运维巡检、故障分析、资产配置管理、服务过程管理、运维操作管控、运维审计、趋势分析等方面,实现以流程驱动的运维自动化管理。重要的技术手段包括:数据中心基础设施监控、网络监控、端到端的业务性能监控、数据备份状态监控、自动化的资产配置操作管理(开源技术:Puppet、Ansible、Saltstack等)、以变更和发布为代表的服务过程管控、移动运维APP应用等。

(5)资源:指为了提升运维效率和质量所需的一切资源,包括人员、技术、工具等。在这里,重点强调知识库和CMDB的建设和维护。知识库和CMDB要不要建?很多运维主管还在犹豫,在我们看来一定要有。因为这两项包含了可供运维人员参考的知识资源和运维基础信息,可提高运维效率。怎么建呢?一定需要制度、专职角色(比如:知识库管理员、资产配置经理)、技术工具配合在一起才能发挥应有的效益。

(6)过程:运维流程化管理贯穿整个管理体系,是运维部门主要的工作抓手,是运维自动化、服务规范和量化管理的基础。在这里,强调如下几项流程应在日常运维过程管理中得到重点应用:

a)变更/发布流程:据统计,70%等运维事件是由变更/发布操作不当引起,多数是因为未采用变更审批流程/管控流程所致。我们所接触到的很多客户,认为变更流程操作复杂而不愿意应用,殊不知这样反而缺少了一道堵住变更风险的高墙。建议运维业务比较复杂的用户,一定要使用起来,我们可以协助梳理和落地。

b)备品备件管理流程:建议存有备品备件场景的运维客户要注意使用备件管理流程,管理重点包括备品备件的出入库管理、库存的统计、以及重要备件的定期可用性测试。

c)应急响应流程:应急响应流程是日常运维管理的重要组成部分,IT运维主管部门应面向数据中心、网络、IT基础架构、应用系统的薄弱环节,建立应急响应流程和应急预案。管理重点包括定期的应急演练、数据恢复演练、应急预案的培训和宣贯、应急处置后的总结和回顾等。

(7)运维管理系统:管理体系建成后,一定要建设相对应的运维管理系统来贯彻上述的各项要求。系统建设的原则应以满足现有问题的解决和需求为主,功能兼顾实用和可视化展现;后续可根据当时运维业务的变化追加功能模块,这是一个逐步完善的过程。

说了那么多,我们的IT运维人都能从中有所感悟呢?IT运维管理是一个非常有前途的专业领域,已经受到整个IT行业的重视,IT运维管理未来的发展方向一定是自动、规范、智能、可视。作为IT运维从业人员的职业规划,我们的建议是,与其把时间和精力花在不停的选择上,还不如在一个领域或行业持续深耕积累。一些技术深度还不错、协调和推进能力比较强的同学非常适合转型管理职位,长远的发展一样目标是CTO、CEO,所以各位小伙伴一定要努力追求卓越,一起加油!

时间: 2024-11-05 14:38:54

CPR式的IT运维管理,我们不要!的相关文章

shell + ansible + gateone 自动化运维管理

目的: shell + ansible + gateone 自动化运维管理:最少的人工干预下,结合运用脚本与第三方工具,保证业务系统7*24小时高效稳定运行: 1.安装环境涉及软件 本次操作系统:Centos 6.5 32/64 进行测试 项目安装软件 版本 Python 2.6.6 Tornado 2.4.1 2.环境部署 2.1 安装依赖包 yum install -y python python-pip gcc python-devel setuptool python-pam opens

IT运维管理7要

IT运维管理起源于IT基础设置建设之初,是对处于运行状态下的物理网络,软硬件环境.业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理. 具体我们可以大致概括为以下七部分内容: 第一.设备管理:对网络设备.服务器设备.操作系统运行状况进行监控,对各种应用支持软件如数据库.中间件.群件以及各种通用或特定服务的监控管理,如邮件系统.DNS.WEB等的监控与管理; 第二.数据/存储/容灾管理:对系统和业务数据进行统一存储.备份和恢复; 第三.业务管理:包含对企业自身核心业务系统运行情况的

VMware交付的软件定义的数据中心 - 运维管理

上一篇,我介绍了VMware交付的软件定义的存储产品,Virtual SAN和vCenter SiteRecovery Manager,本文就详细描述VMware交付的数据中心管理和自动化产品组. 数据中心管理和自动化 在前面几期我详细描述了VMware交付的软件定义的计算.网络和存储,细心的读者可以发现,如果数据中心的计算资源.网络资源和存储资源都被虚拟化后,IT部门可以更加灵活而弹性的控制数据中心的各种资源,为业务部门提供更好的支持和服务.但是,这也给IT部门对于数据中心的管理提出了更大的挑

8个方面谈IT运维管理

IT运维管理的概念应该源于信息系统的生命周期,通常信息系统要经历规划.设计.开发.实施(部署).测试(验收).运行.废止等阶段,每个阶段都有相应的工作内容,运维管理就是运行阶段的主要工作. IT运维管理,是指单位 IT 部门采用相关的方法.手段.技术.制度.流程和文档等,对IT 运行环境(如硬软件环境.网络环境等).IT 业务系统和 IT 运维人员进行的综合管理.IT 运维管理主要包括8个方面的管理内容: 1·设备管理:对网络设备.服务器设备.操作系统运行状况进行监控和管理: 2·应用/服务管理

Linux小课堂开课了(9)-Centos7日常运维管理

Centos7日常运维管理 1,查看系统配置,进程,I/O,网卡流量使用w可以查看系统的状态,当前时间,系统启动时间,登录用户,从哪个IP登录的,系统的负载值.使用uptime查看系统的负载值使用iptop,可以具体查看哪个进行使用的I/O较多,需要安装一下[[email protected] ~]# yum -y install iotop[[email protected] ~]# iotop使用cat /proc/cpuinfo查看系统配置使用vmstat可以查看CPU,内存,虚拟磁盘,交

Pexpect:系统批量运维管理器!!!

项目背景: 为了更好的实现我们企业的自动化运维,我们需要对pexpect模块有清晰的了解和使用能力. 实验环境: vmware workstation 11 centos6.5的系统下 pexpect服务器:192.168.0.26 远程主机:192.168.0.14 SecureCRT (ssh远程连接软件) 软件介绍 Pexpect 是一个用来启动子程序并对其进行自动控制的纯 Python 模块. Pexpect 可以用来和像 ssh.ftp.passwd.telnet 等命令行程序进行自动

如何有效进行IT运维管理

IT运维中的不良习惯 (1).治标不治本.IT设施故障往往是突发的.随机的.不可预测.不可控制的.也很难自动提醒和警告.运维和管理人员成天处于高度紧张状况,节假日也提心吊胆.一旦发生故障,往往手忙脚乱来不及仔细多方面观察.分析原因,也无法很快准确定位.为了尽快恢复业务,只能采取重启.清除等不可回朔操作.这种治标不治本的维护措施,不能根本解决问题,类似现象仍然可能再发生. (2).没有排错记录.我们的很多IT人员没有排错记录的习惯,这样当事后查找原因缺乏当时记录,就算找到点痕迹也缺乏进一步分析数据

zookeeper 运维管理

zookeeper 运维管理(转) link: http://blog.163.com/[email protected]/blog/static/963698182012928114335375/ 2012-10-28 11:43:35|  分类: zookeeper|字号 订阅 学习借鉴 1.部署 本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容: 1. 系统环境 2. 集群模式的配置 3. 单机模式的配置 系统环境和集群模式配置这两节内容大体讲述了如何部署一个能够用于生产环境

Mysql运维管理-MySQL备份与恢复实战案例及生产方案17

1.全量备份与增量备份 1.1 全量备份 全量数据就是数据库中所有的数据,全量备份就是把数据库中所有的数据进行备份. 备份所有库: mysqldump -uroot -p123456 -S /data/3306/mysql.sock -F -B –A gzip >/server/backup/mysq_backup_$(date +%F).sql.gz 备份一个库: mysqldump -uroot -p123456 -S /data/3306/mysql.sock -F -B linzhong