运维故障处理的实践心得

运维工程师不可避免得会遇到各种故障的情况,[可控]是运维团队追求的终极目标之一

包括故障的可控性,所以衍生出以下的子目标:

1. 降低故障概率

海恩法则:每一起严重事故的背后,必然有29次轻微事故和300次未遂先兆,以及1000个事故隐患。

用数据说话,统计各种异常的原因分布:

  • 网络与硬件
  • 外部门人员配合
  • 程序代码原因
  • 架构设计缺陷
  • 数据库
  • 部署错误
  • 人为错误
  • 其他

累计一段时间以来的数据,生成分布百分比图,当某项原因突增可以及时发现

一般来说,代码发布及运维变更(如机器增减、数据迁移、ip变更等)是两大故障导火索。所以要抽象运维对象、减少人工干预、优化操作流程降低复杂度等。各个公司的团队有自身的流程和步骤,不能一概而论,需要整个公司不仅仅运维部门的通力合作。

2. 迅速发现故障


基础系统监控


基础业务监控


高级业务监控


机器存活


端口可用


实时在线人数


网络连通性


进程存活


服务超时


CPU


日志监控


数据一致性


内存


curl可用


关键组件可用


磁盘


check_http


容量监控

一般运维团队都能做到基础系统和基础业务监控,但是高级业务监控才是衡量运维团队的指标

对报警短信要分层、分类,再过滤掉重复冗余信息后,精准下发到各自应用的负责人。

3. 快速处理故障

把故障的处理分成三个子步骤:响应、定位、修复

响应的快慢取决于运维团队的分工和职责划分,理论上运维团队需要做到7*24响应,到真正落实到每一位运维同事时,需要一定的激励和惩罚措施,这个不多说。

定位故障需要运维团队经验的传承和分享,需要一份运维故障手册,里面记录了各种典型的故障以及处理方法,也需要有定期故障演习和各种处理预案。

修复的速度很大程度取决于是否有足够的自动化工具,如数据修复、回滚、流量切换、机器切换等工具

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-12 22:30:03

运维故障处理的实践心得的相关文章

RedHat / Centos   Linux 系统运维与管理实践技巧荟萃,持续更新

RedHat / Centos   Linux  系统运维与管理实践技巧荟萃

自动化运维之SaltStack实践视频教程

点我开始学习: http://edu.51cto.com/course/course_id-2354.html 1      培训目标 本课程的目标是让所有参加培训的学员都可以使用SaltStack进行服务器管理,熟练使用远程执行的功能批量操作服务器,使用配置管理进行自动化安装.部署和管理.同时可以根据企业的生产需求进行自定义的开发.最后带领学员完成生产项目-使用<SaltStack进行OpenStack自动化部署>. 2      预备知识 l  熟悉Linux基本命令及系统管理. l  熟

游戏运维的最佳实践:搜狐畅游自动化运维之旅!

搜狐黎志刚见证了畅游游戏自动化运维平台的从无到有,通过在其中踩过的坑.解过的结,他向大家来阐述游戏运维的进阶之路.本文主要围绕畅游游戏管理体系与运维自动化的演变历程.运维自动化的实现及未来运维四方面展开. 畅游运维管理体系与运维自动化的演变历程 畅游运维管理体系演变历程 从 2008 年毕业以实习生的身份进入搜狐畅游,我同公司一起成长,经历了整个运维管理体系从小到大的过程. 整个运维管理体系是从最初石器时代(脚本化),之后的青铜时代(半自动化).蒸汽时代(DevOPS)一路演变过来,现在处于自动

网站运维技术与实践之集群架构规划

集群架构规划和设计只要是涉及到高并发高流量的项目,基本上都需要. 本文主要围绕两个方面,一个是IDC的规划和选择,另一个是CDN. 一.IDC的规划和选择 IDC的选择是网站上线前要做的最重要的事情之一.哪怕发展初期只有一台服务器,选择一个位置不错的机房托管,都会助益良多. 也许有人会问IDC是什么? 我引用百度百科来回答: IDC为互联网内容提供商(ICP).企业.媒体和各类网站提供大规模.高质量.安全可靠的专业化服务器托管.空间租用.网络批发带宽以及ASP.EC等业务.IDC是对入驻(Hos

网站运维技术与实践之服务器监测常用命令

一.监测的意义 不论是网站运维还是系统管理,服务器本身的运行状况都是我们需要掌控的基础资料.在<打造FaceBook>一书中,王淮介绍FaceBook的工程师文化中有一句"Move Fast and Monitor Closely".这个"Closely"有两层意义,其一是"即时"的,要从系统开发初期,就有意识地设计好配套的监测,并逐步改善:其二是"深入",监控不能仅仅停留在监测主机负载.网卡流量的表面层次,而要尽

网站运维技术与实践之数据分析与报警

对于日益积累的监控数据,显然需要有规划地进行存储和分析,做到"故障没来时有预防,故障来临时有提示,故障到来时有解决方案". 一.时间序列存储 对于大多数监控数据,都有一个天然的类似数据库主键的属性,那就是时间.所以,通常情况下,各类监控系统的后台数据库都可以认为是时间序列的数据存储,并由此诞生了一批针对监控数据存储开发的数据库,其中最有代表性是RRDtool和Graphite. 1.RRDtool(Round-Robin DataBase Tool) Round-Robin(循环)在运

零基础学习云计算及大数据DBA集群架构师【企业级运维技术及实践项目2015年1月27日周三】

Nginx 基于 ip 的虚拟主机配置 { #serverb (1)/etc/nginx/conf.d/* [[email protected] conf.d]# vim ip.conf server { listen 192.168.1.88:80; root 88.com; index index.html; } server { listen 192.168.1.87:80; root 87.com; index index.html; } [[email protected] ~]# i

《运维前线:一线运维专家的运维方法、技巧与实践》出版了!

<运维前线:一线运维专家的运维方法.技巧与实践>(以下简称<运维前线>)是前线系列的一个子集,前线系列图书的出版理念是邀请多位业界专家,总结所在行业的最新理念或深度实践经验.前线系列图书不同于市面上的很多图书,这类书并不系统,有的只是一线专家的实战经验,人们常称之为"干货".一篇文章.一家公司.一个案例.一个场景,独立成篇,在满足碎片化阅读的同时,也能让读者进行横向比较和深入思考.本系列图书不强调大而全,追求的是每篇文章都是精品,希望能给读者带来深度的启发和收获

关于Prometheus运维实践项目

关于Promethues运维实践项目 1. 什么是Prometheus运维实践项目 ? 是什么 ? Prometheus,普罗米修斯,是古希腊神话中为人间带来火种的神. ? Prometheus运维实践项目,是作为IT运维从业者的我,根据自己的知识背景.工作经历.思维层次,现有条件,想要创建推进完成的一个运维学习和实践平台. ? 通过这个项目的推进和平台的构建,我本人能够探索巩固完善自己的运维知识体系,提高运维认知和实践能力,其他偶然访问到我博客或者项目的运维初学者或同行,也能够明确行路方向和实