发生线上故障后问责是不是第一要务

《Google SRE》这本书，说过这样一句话：系统正常，只是该系统无数异常情况下的一种特例。故障是不可避免的，不管是再牛的系统、再知名的科技公司。

既然不可避免，我们要做的就是不断提升能力和优化流程，减少故障出现的概率。

今天公司线上系统出现了响应迟钝的情况，白天偶现，到了晚上，出现雪崩效应。各个系统，都出现相应超时等情况。最终定位到有一个太服务器的CPU跑满了。

其实监控系统已经出现报警提醒，但因未有一套规范流程。没有第一时间观察到。出现线上有问题，第一时间应该查看监控系统是否有异常情况，再观察业务系统本身，如果出现雪崩情况，需要进一步排查底层支持系统（如数据库）。

所以说出现故障时，快速定位、快速修复，需要建立一套应该故障处理流程。建立相应的流程可以借鉴大厂的处理方式。然后一步步完善，逐渐建立自己的一套流程。

故障处理好后，逃不开的话题就是问责。我们公司比较奇怪，在定位到问题后，第一时间就开始问责了。

关于追责，《赵成的运维体系管理课》的观点是：

对于故障的时候处理，我的建议是：一定要区分好两个概念，定责和处罚，定则不等于处罚。

定责，事情一定要有人承担责任，并且负责后续改进措施落地。定责一般是故障复盘之后确定的，通过这个过程找到根因，制定改进措施，最终判定责任方，会议和公开场合只体现责任团队，故障系统上会记录到具体责任人，但是这个字段不公开。

这个过程，就一个原则：对事不对人。

处罚，也就是是否跟薪资、奖金、绩效考核、晋升资格等等这些跟利益相关的事情挂钩？我的观点是：不能一刀切，不能上纲上线。

这里首先问一个问题，处罚的目的是什么？其实说的直白一点，目的就是想让责任人章机型，别再出纰漏，有效降低再犯错误的概率。

很多严重的故障都来自主观意识薄弱、低级且重复的失误，解决这个主观意识上的问题，我们可以考虑设定高压线。

高压线就是避免因为无意识或意识薄弱导致的严重故障。这样的问题要坚决杜绝，碰一次就要让责任人疼一次，这样，责任人敬畏意识和主观意识提升了，认为失误才会减少，这样的处罚才是有效果的。

当然，如果是其他类型的故障，就要区别对待，如：尝试新的技术和方案、业务告诉发展等等。

重点是不要打击员工的积极性，一旦受到打击，想要恢复是十分困难的。

处罚，是一种手段，而不是主要的目的。但是如果把处罚变成目的的话，就本末倒置了。

发生线上故障后问责是第一要务，确定责任人，进而进行改进，避免下次重复犯相应的错误。

但是不能把问责定义为处罚，如果问责只是为了处罚。那接下来的就不是改进了，下次一样可能犯一样的错误。很可能让别人觉得，罚就罚吧，也已经习惯了。

得不偿失，优秀的人员可能就会这样流失。

原文地址：https://www.cnblogs.com/fishsky/p/11135403.html

时间： 2024-10-08 21:26:14

发生线上故障后问责是不是第一要务的相关文章

如何快速处理线上故障

概述线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉'坑'里了,这个'坑'就是线上故障!线上故障的处理过程可以形象地表达为:'踩坑'.'跳坑'.'填坑'.'避坑'. 线上故障的处理不仅是一项技术活,更是对技术人员/技术团队反应能力.决策能力.判定能力.组织能力的考验.面对突发的生产故障,需要快速定位问题,找到解决方案,快速实施解决方案并不是一件容易的事情.本文主要包括如下内容:线上故障处理的目标.思路.步骤.基础设施.本文是依据平时经历的生产故障排查和处理,总结一些肤

大数据技术之_18_大数据离线平台_02_Nginx+Mysql+数据收集+Web 工程 JS/JAVA SDK 讲解+Flume 故障后-如何手动上传 Nginx 日志文件至 HDFS 上

十一.Nginx11.1.介绍11.2.常见其他 Web 服务器11.3.版本11.4.Nginx 安装11.5.目录结构11.6.操作命令十二.Mysql12.1.介绍12.2.关系型数据库(SQL)种类12.3.特征12.4.术语12.4.与非关系型数据库比较(Not Only SQL)12.4.1.种类12.4.2.特征12.4.3.总结十三.数据收集13.1.收集方式13.2.数据的事件类型13.2.1.Launch 事件13.2.2.PageView 事件13.3.Nginx 日志收集

关于线上故障的思考

周末早上,一个哥们突然@我,问是否有线上故障处理和定级的规范或者模板,虽然手头有既有文档,但内容显的太具象了,跟我们的业务有很强的关联性,并不是那么好直接复制到他的团队中.因此,个人对过去的线上故障处理进行了回顾和思考,并进行了简要的归纳,望帮助到需要的同学.文本将按事中处理.事后总结和事前预防的顺序进行介绍,不足之处望大家不吝赐教. 换个角度来说,其实故障处理的过程,和小朋友发高烧的处理过程类似.首先mama会带孩子上医院,如果温度高医生会要求打退烧针,类似发布回滚,之后再通常吃对症的药物慢慢

变更红线与问责

变更3要素可灰度可监控可应急变更红线禁止在非变更窗口期.封网期进行变更(不同的公司变更期不通,基本都有高峰期/低峰期的规定):这些变更包括但不限于:压测,代码提交到生成,紧急线上变更需要走审批流程. 禁止未经测试验证, 预发验证,或者灰度的线上变更禁止无边跟影面.操作步骤.验证方案.应急预案及回滚方案说明的变更,应急预案必须具备可操作性,通俗的讲就是:任何变更都必须评估风险,做好sop,做好操作失败的修复方案. 禁止一切变更方案外的操作,如果变更出现非预期的情况应当立即停止并将情况反

天津baozha，十问责相关部门！

1.为何危险化学品离居民区那么近? 2.事故企业到底是什么背景? 3.为何爆炸发生后,相关人没有即时告知消防员灾情是危险物品,不能用水? 4.为何总是在事故发生后,党国才能发现隐忧? 5.爆炸区的物品爆炸引发的后果和危害到底有多大? 6.为何"天津爆炸"许多相关新闻都被封杀?天津真的是一个没有新闻的城市? 7.为什么每次事故发生后党国官员的态度总是推卸责任? 8.天灾还是人祸?为何至今没有负责人出来表明态度? 9.爆炸中心周围既然有居民楼,难道那些楼都是鬼城?死亡的人都将白白死去? 1

RAID5出现故障后数据应该如何恢复

绝大多数人基于RAID5本身也有强大的容错能力,因此往往不太重视数据备份,这就造成了RAID出现故障时导致数据丢失.那么,在没有备份的情况下,如果RAID5出现故障,我们该如何恢复数据呢?接下来通过下文来讲解如何恢复RAID5故障后丢失的数据的方法步骤. RAID5发生故障的原因可能有很多种,RAID控制器故障,突然断电导致的RAID信息出错,也有可能RAID5的一块硬盘出错,没及时更换,等到第二块硬盘出错时,造成RAID5失效.RAID5发生硬件故障只有求助专业的数据恢复公司,而其他一些情况,

JVM 线上故障排查基本操作--CPU飙高

JVM 线上故障排查基本操作 CPU 飚高线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程.然后找到那个进程中的 “问题线程”,最后根据线程堆栈信息找到问题代码.最后对代码进行排查. 如何操作呢? 通过 top 命令找到 CPU 消耗最高的进程,并记住进程 ID. 再次通过 top -Hp [进程 ID] 找到 CPU 消耗最高的线程 ID,并记住线程 ID. 通过 JDK 提供的 jstac

ie9上传后下载json

1.保持后台控制器返回的数据为字符串格式 2.js:dataType类型保持为html格式 dataType: 'html',//默认就是html类型,不写对火狐有影响 3.将上传后后台返回的字符串转变成json数据格式,正常渲染页面responseText = JSON.parse(response); //把html转换成json类型

云计算之路-阿里云上：消灭“黑色n秒”第一招——不让CPU空闲

昨天对"黑色n秒"问题的最终猜想以失败而告终,从而让我们结束了被动猜想阶段,进入了主动进攻阶段--出招. 今天出第一招--用C#写个小程序,让其在每个CPU核上运行一个线程,不让任何一个CPU核进入空闲(idle)状态,以进一步排除CPU idle引起的"黑色n秒". 在这一招中,借助的最重要的武器是System.Diagnostics.ProcessThread.ProcessorAffinity.通过给ProcessorAffinity设置一个掩码,就可以指定当