发生线上故障后问责是不是第一要务

《Google SRE》这本书,说过这样一句话:系统正常,只是该系统无数异常情况下的一种特例。故障是不可避免的,不管是再牛的系统、再知名的科技公司。

既然不可避免,我们要做的就是不断提升能力和优化流程,减少故障出现的概率。

今天公司线上系统出现了响应迟钝的情况,白天偶现,到了晚上,出现雪崩效应。各个系统,都出现相应超时等情况。最终定位到有一个太服务器的CPU跑满了。

其实监控系统已经出现报警提醒,但因未有一套规范流程。没有第一时间观察到。出现线上有问题,第一时间应该查看监控系统是否有异常情况,再观察业务系统本身,如果出现雪崩情况,需要进一步排查底层支持系统(如数据库)。

所以说出现故障时,快速定位、快速修复,需要建立一套应该故障处理流程。建立相应的流程可以借鉴大厂的处理方式。然后一步步完善,逐渐建立自己的一套流程。

故障处理好后,逃不开的话题就是问责。我们公司比较奇怪,在定位到问题后,第一时间就开始问责了。

关于追责,《赵成的运维体系管理课》的观点是:

对于故障的时候处理,我的建议是:一定要区分好两个概念,定责和处罚,定则不等于处罚。

定责,事情一定要有人承担责任,并且负责后续改进措施落地。定责一般是故障复盘之后确定的,通过这个过程找到根因,制定改进措施,最终判定责任方,会议和公开场合只体现责任团队,故障系统上会记录到具体责任人,但是这个字段不公开。

这个过程,就一个原则:对事不对人。

处罚,也就是是否跟薪资、奖金、绩效考核、晋升资格等等这些跟利益相关的事情挂钩?我的观点是:不能一刀切,不能上纲上线。

这里首先问一个问题,处罚的目的是什么?其实说的直白一点,目的就是想让责任人章机型,别再出纰漏,有效降低再犯错误的概率。

很多严重的故障都来自主观意识薄弱、低级且重复的失误,解决这个主观意识上的问题,我们可以考虑设定高压线。

高压线就是避免因为无意识或意识薄弱导致的严重故障。这样的问题要坚决杜绝,碰一次就要让责任人疼一次,这样,责任人敬畏意识和主观意识提升了,认为失误才会减少,这样的处罚才是有效果的。

当然,如果是其他类型的故障,就要区别对待,如:尝试新的技术和方案、业务告诉发展等等。

重点是不要打击员工的积极性,一旦受到打击,想要恢复是十分困难的。

处罚,是一种手段,而不是主要的目的。但是如果把处罚变成目的的话,就本末倒置了。

发生线上故障后问责是第一要务,确定责任人,进而进行改进,避免下次重复犯相应的错误。

但是不能把问责定义为处罚,如果问责只是为了处罚。那接下来的就不是改进了,下次一样可能犯一样的错误。很可能让别人觉得,罚就罚吧,也已经习惯了。

得不偿失,优秀的人员可能就会这样流失。

原文地址:https://www.cnblogs.com/fishsky/p/11135403.html

时间: 2024-10-08 21:26:14

发生线上故障后问责是不是第一要务的相关文章

如何快速处理线上故障

概述 线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉'坑'里了,这个'坑'就是线上故障!线上故障的处理过程可以形象地表达为:'踩坑'.'跳坑'.'填坑'.'避坑'. 线上故障的处理不仅是一项技术活,更是对技术人员/技术团队反应能力.决策能力.判定能力.组织能力的考验.面对突发的生产故障,需要快速定位问题,找到解决方案,快速实施解决方案并不是一件容易的事情.本文主要包括如下内容:线上故障处理的目标.思路.步骤.基础设施.本文是依据平时经历的生产故障排查和处理,总结一些肤

大数据技术之_18_大数据离线平台_02_Nginx+Mysql+数据收集+Web 工程 JS/JAVA SDK 讲解+Flume 故障后-如何手动上传 Nginx 日志文件至 HDFS 上

十一.Nginx11.1.介绍11.2.常见其他 Web 服务器11.3.版本11.4.Nginx 安装11.5.目录结构11.6.操作命令十二.Mysql12.1.介绍12.2.关系型数据库(SQL)种类12.3.特征12.4.术语12.4.与非关系型数据库比较(Not Only SQL)12.4.1.种类12.4.2.特征12.4.3.总结十三.数据收集13.1.收集方式13.2.数据的事件类型13.2.1.Launch 事件13.2.2.PageView 事件13.3.Nginx 日志收集

关于线上故障的思考

周末早上,一个哥们突然@我,问是否有线上故障处理和定级的规范或者模板,虽然手头有既有文档,但内容显的太具象了,跟我们的业务有很强的关联性,并不是那么好直接复制到他的团队中.因此,个人对过去的线上故障处理进行了回顾和思考,并进行了简要的归纳,望帮助到需要的同学.文本将按事中处理.事后总结和事前预防的顺序进行介绍,不足之处望大家不吝赐教. 换个角度来说,其实故障处理的过程,和小朋友发高烧的处理过程类似.首先mama会带孩子上医院,如果温度高医生会要求打退烧针,类似发布回滚,之后再通常吃对症的药物慢慢

变更红线与问责

变更3要素 可灰度 可监控 可应急 变更红线 禁止在非变更窗口期.封网期进行变更(不同的公司变更期不通,基本都有高峰期/低峰期的规定):这些变更包括但不限于:压测,代码提交到生成,紧急线上变更需要走审批流程. 禁止未经测试验证, 预发验证,或者灰度的线上变更 禁止无边跟影面.操作步骤.验证方案.应急预案及回滚方案说明的变更,应急预案必须具备可操作性,通俗的讲就是:任何变更都必须评估风险,做好sop,做好操作失败的修复方案. 禁止一切变更方案外的操作,如果变更出现非预期的情况应当立即停止并将情况反

天津baozha,十问责相关部门!

1.为何危险化学品离居民区那么近? 2.事故企业到底是什么背景? 3.为何爆炸发生后,相关人没有即时告知消防员灾情是危险物品,不能用水? 4.为何总是在事故发生后,党国才能发现隐忧? 5.爆炸区的物品爆炸引发的后果和危害到底有多大? 6.为何"天津爆炸"许多相关新闻都被封杀?天津真的是一个没有新闻的城市? 7.为什么每次事故发生后党国官员的态度总是推卸责任? 8.天灾还是人祸?为何至今没有负责人出来表明态度? 9.爆炸中心周围既然有居民楼,难道那些楼都是鬼城?死亡的人都将白白死去? 1

RAID5出现故障后数据应该如何恢复

绝大多数人基于RAID5本身也有强大的容错能力,因此往往不太重视数据备份,这就造成了RAID出现故障时导致数据丢失.那么,在没有备份的情况下,如果RAID5出现故障,我们该如何恢复数据呢?接下来通过下文来讲解如何恢复RAID5故障后丢失的数据的方法步骤. RAID5发生故障的原因可能有很多种,RAID控制器故障,突然断电导致的RAID信息出错,也有可能RAID5的一块硬盘出错,没及时更换,等到第二块硬盘出错时,造成RAID5失效.RAID5发生硬件故障只有求助专业的数据恢复公司,而其他一些情况,

JVM 线上故障排查基本操作--CPU飙高

JVM 线上故障排查基本操作 CPU 飚高 线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程.然后找到那个进程中的 “问题线程”,最后根据线程堆栈信息找到问题代码.最后对代码进行排查. 如何操作呢? 通过 top 命令找到 CPU 消耗最高的进程,并记住进程 ID. 再次通过 top -Hp [进程 ID] 找到 CPU 消耗最高的线程 ID,并记住线程 ID. 通过 JDK 提供的 jstac

ie9上传后下载json

1.保持后台控制器返回的数据为字符串格式 2.js:dataType类型保持为html格式 dataType: 'html',//默认就是html类型,不写对火狐有影响 3.将上传后后台返回的字符串转变成json数据格式,正常渲染页面responseText = JSON.parse(response); //把html转换成json类型

云计算之路-阿里云上:消灭“黑色n秒”第一招——不让CPU空闲

昨天对"黑色n秒"问题的最终猜想以失败而告终,从而让我们结束了被动猜想阶段,进入了主动进攻阶段--出招. 今天出第一招--用C#写个小程序,让其在每个CPU核上运行一个线程,不让任何一个CPU核进入空闲(idle)状态,以进一步排除CPU idle引起的"黑色n秒". 在这一招中,借助的最重要的武器是System.Diagnostics.ProcessThread.ProcessorAffinity.通过给ProcessorAffinity设置一个掩码,就可以指定当