关于运维之故障复盘篇-Case Study

关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足;

文档能力也是能力的一种,一般工程师的文档能力比较薄弱或者一般 ,但是一般各种类型的文档其实都有模板,根据模板填充内容也能事半功倍。

故障要有记录, 每个公司应当都有wiki,这些复盘应当记录下来,能学习到很多。Case Study会占用大量的时间, 但是中级以及重大故障还是有必要的。

下面介绍的就是复盘的整体套路:


故障描述

xxx业务状态码报警, 存储MySQL3台云主机 宕机, 根本原因是所在的宿主机宕机.

故障复盘

  1. 16:00  故障开始
  2. 16:02  发现xxx 状态码报警
  3. 16:03  op查看报警,web机器正常,同时收到三台数据库机器down机报警.
  4. 16:06  xxxxx
  5. 16:11   云厂商反馈3台云主机所在的物理机异常宕机 ,目前运维同事在紧急处理
  6. 16:14   云厂商反馈物理机正在启动中
  7. 16:22  金山反馈启动成功,并进行热迁移工作
  8. 16:23  云主机机器启动,启动数据库报警 (此时5xx状态码报警恢复)

原因:

    云主机所在的宿主机物理故障导致多台服务器同时宕机.

影响面

1.   故障时间: 06/16 16:00 ~ 06/16 16:23  (此时间段是宕机时间 23min )

2.   影响服务: xxxx

3.   损失率:    11.35%

错误总计: 66312

请求总量:    584472

后续优化

  1. 将云主机打散,分布在不通的物理主机上.


以上是一个简单的故障复盘模型 , 第一步是先根据时间线还原整个故障开始到结束的过程, 第二就是找出问题点(root cause),第三就是看有什么具体的改进措施以及优化,避免再次出现同类故障。

原文地址:https://www.cnblogs.com/topicjie/p/11111805.html

时间: 2024-07-29 21:38:28

关于运维之故障复盘篇-Case Study的相关文章

详解Linux运维工程师打怪升级篇

详解 Linux 运维工程师打怪升级篇 积累经验篇 做运维也快4年多了,就像游戏打怪升级,升级后知识体系和运维体系也相对变化挺大,学习了很多新的知识点. 运维工程师 是从一个呆逼进化为苦逼再成长为牛逼的过程,前提在于你要能忍能干能拼,还要具有敏锐的嗅觉感知前方潮流变化.如:今年大数据,人工智能比较火...(相对表示就是 python 比较火) 前面也讲了运维基础篇,发现对很多人收益挺大,接下来也写下关于这4年多的运维实践经验,从事了2年多游戏运维,1年多安全运维,1年大数据运维,相关行业信息不能

企业运维之域控篇(三)--加入域

域建起来后,就要用,现在就试下它吧... 企业运维之域控篇(三)--加入域,布布扣,bubuko.com

企业运维之域控篇(四)--域的状态备份

我们在用域时,不要只是记得用,还要定时的对域的备份,这个才是重中之重(如果你的环境好似我的单域环境),虽然极度不赞成这样的方式动作,但是现实只能是去适应...唉... 多说没益... 下面还是说下域的备份与还原,一般情况下,我们备份与我们吊丝杂工们(俺也是其中悲哀的一员)GHOST备份系统不一样,用的工具也不一样. 先来备份,直接上图: 企业运维之域控篇(四)--域的状态备份,布布扣,bubuko.com

企业运维之域控篇(十)--SERVER 2003 迁移到 SERVER 2008 (异机)

因为随着微软系统的不断更新,以前的系统已经不能满足我们的要求,所以为了响应..只能是把SERVER 2003向SERVER 2008推进. 但是这个又是一个苦力活啊... 企业运维之域控篇(十)--SERVER 2003 迁移到 SERVER 2008 (异机)

企业运维之域控篇(五)--域的状态还原

本故事情节纯属虚构.如有类同,请忽略... 在企业中,一般好少遇到要还原的情况,但是天有不测风云,有时还是黑仔得很,要用到还原域的状态,所以还是要顶风作案下... 犯案前:准备好备份文件(可以是在电脑的其它盘,C除外.也可以是网络盘等) 犯案环境:SERVER 2003 系统.同硬件 犯案心理:当前域实在是没办法完成我们的日常工作时,给生活所逼,不得不顶风作案... 犯案注意:最好是同硬件环境---俺试过异机异硬件操作时,还原后系统都起不来..如果那位大大知道           原因的请告知,

企业运维之域控篇(十四)-域共享文件(服务端&客户端)设置

在公司我们这类杂工最多面对的也就是文件共享服务器.....这个是公司的重中之重,希望公司的领导与我们这类的杂工能够关注:免得一失足成千古恨!!!! 共享文件的作用:主要是在方便大家共同拥有. 共享服务器里的文件只能是暂时存放,而不是让它成为永久的仓库... 可能是人的懒性吧,所以每个公司的员工都是喜欢直接在共享文件里进行工作操作(如:编辑等等),其实这个是最点服务器资源与危险的事情. eg: 当你编辑好文件,保存后才发觉原来改错了,要恢复?那真是有些悲剧了(自己找不到需要的资料,同时也造成同事不

企业运维之域控篇(八)--辅助域控升级为主域控之一(阴谋)

             阴谋是背地里为了达到自己的目的不择手段的而制定的一种谋略.        有时,我们会遇到主域控因种种原因(硬件.软件.病毒)造成了不能正常启动,这就形成了辅助域只能是在黑灯黑火的情况下,实施阴谋造反,强制性占用域控的 五大角色,成功夺权为王... 企业运维之域控篇(八)--辅助域控升级为主域控之一(阴谋)

企业运维之域控篇(九)--辅助域强制占用后的操作--清除数据

----------------------------------------------------------- 企业运维之域控篇(九)--辅助域强制占用后的操作--清除数据  企业运维之域控篇(八)--辅助域控升级为主域控之一(阴谋)  企业运维之域控篇(八)--辅助域控升级为主域控之一(阳谋) 企业运维之域控篇(七)--创建辅助域 企业运维之域控篇(六)--更改域密码复杂性方法 企业运维之域控篇(五)--域的状态还原 企业运维之域控篇(四)--域的状态备份 企业运维之域控篇(三)--加

Linux运维之路 基础篇:Linux基础命令(一)

Linux运维之路 基础篇:Linux基础命令(一) Linux哲学宗旨: 一切皆文件:把几乎所有的资源,包括硬件设备都组织为文件 有众多单一的小程序组成,一个程序制实现一个功能,组成小程序完成复杂操作 尽量避免和用户交互:实现脚本编程,以自动完成某些功能 使用纯文本文件保存配置信息 终端:用户和主机交互时用到的设备 物理终端:直接接入的设备也叫控制台/dev/console 虚拟终端:附加在物理终端上虚拟出的,默认启动六个,Ctrl+Alt(F1~F6),系统启动时,默认启动虚拟终端1,启动终