运维故障处理的实践心得

运维工程师不可避免得会遇到各种故障的情况，[可控]是运维团队追求的终极目标之一

包括故障的可控性，所以衍生出以下的子目标：

1. 降低故障概率

海恩法则：每一起严重事故的背后，必然有29次轻微事故和300次未遂先兆，以及1000个事故隐患。

用数据说话，统计各种异常的原因分布：

网络与硬件
外部门人员配合
程序代码原因
架构设计缺陷
数据库
部署错误
人为错误
其他

累计一段时间以来的数据，生成分布百分比图，当某项原因突增可以及时发现

一般来说，代码发布及运维变更（如机器增减、数据迁移、ip变更等）是两大故障导火索。所以要抽象运维对象、减少人工干预、优化操作流程降低复杂度等。各个公司的团队有自身的流程和步骤，不能一概而论，需要整个公司不仅仅运维部门的通力合作。

2. 迅速发现故障

基础系统监控	基础业务监控	高级业务监控
机器存活	端口可用	实时在线人数
网络连通性	进程存活	服务超时
CPU	日志监控	数据一致性
内存	curl可用	关键组件可用
磁盘	check_http	容量监控

一般运维团队都能做到基础系统和基础业务监控，但是高级业务监控才是衡量运维团队的指标

对报警短信要分层、分类，再过滤掉重复冗余信息后，精准下发到各自应用的负责人。

3. 快速处理故障

把故障的处理分成三个子步骤：响应、定位、修复

响应的快慢取决于运维团队的分工和职责划分，理论上运维团队需要做到7*24响应，到真正落实到每一位运维同事时，需要一定的激励和惩罚措施，这个不多说。

定位故障需要运维团队经验的传承和分享，需要一份运维故障手册，里面记录了各种典型的故障以及处理方法，也需要有定期故障演习和各种处理预案。

修复的速度很大程度取决于是否有足够的自动化工具，如数据修复、回滚、流量切换、机器切换等工具

时间： 2024-10-12 22:30:03

运维故障处理的实践心得的相关文章

RedHat / Centos   Linux 系统运维与管理实践技巧荟萃，持续更新

RedHat / Centos Linux 系统运维与管理实践技巧荟萃

自动化运维之SaltStack实践视频教程

点我开始学习: http://edu.51cto.com/course/course_id-2354.html 1 培训目标本课程的目标是让所有参加培训的学员都可以使用SaltStack进行服务器管理,熟练使用远程执行的功能批量操作服务器,使用配置管理进行自动化安装.部署和管理.同时可以根据企业的生产需求进行自定义的开发.最后带领学员完成生产项目-使用<SaltStack进行OpenStack自动化部署>. 2 预备知识 l 熟悉Linux基本命令及系统管理. l 熟

游戏运维的最佳实践：搜狐畅游自动化运维之旅！

搜狐黎志刚见证了畅游游戏自动化运维平台的从无到有,通过在其中踩过的坑.解过的结,他向大家来阐述游戏运维的进阶之路.本文主要围绕畅游游戏管理体系与运维自动化的演变历程.运维自动化的实现及未来运维四方面展开. 畅游运维管理体系与运维自动化的演变历程畅游运维管理体系演变历程从 2008 年毕业以实习生的身份进入搜狐畅游,我同公司一起成长,经历了整个运维管理体系从小到大的过程. 整个运维管理体系是从最初石器时代(脚本化),之后的青铜时代(半自动化).蒸汽时代(DevOPS)一路演变过来,现在处于自动

网站运维技术与实践之集群架构规划

集群架构规划和设计只要是涉及到高并发高流量的项目,基本上都需要. 本文主要围绕两个方面,一个是IDC的规划和选择,另一个是CDN. 一.IDC的规划和选择 IDC的选择是网站上线前要做的最重要的事情之一.哪怕发展初期只有一台服务器,选择一个位置不错的机房托管,都会助益良多. 也许有人会问IDC是什么? 我引用百度百科来回答: IDC为互联网内容提供商(ICP).企业.媒体和各类网站提供大规模.高质量.安全可靠的专业化服务器托管.空间租用.网络批发带宽以及ASP.EC等业务.IDC是对入驻(Hos

网站运维技术与实践之服务器监测常用命令

一.监测的意义不论是网站运维还是系统管理,服务器本身的运行状况都是我们需要掌控的基础资料.在<打造FaceBook>一书中,王淮介绍FaceBook的工程师文化中有一句"Move Fast and Monitor Closely".这个"Closely"有两层意义,其一是"即时"的,要从系统开发初期,就有意识地设计好配套的监测,并逐步改善:其二是"深入",监控不能仅仅停留在监测主机负载.网卡流量的表面层次,而要尽

网站运维技术与实践之数据分析与报警

对于日益积累的监控数据,显然需要有规划地进行存储和分析,做到"故障没来时有预防,故障来临时有提示,故障到来时有解决方案". 一.时间序列存储对于大多数监控数据,都有一个天然的类似数据库主键的属性,那就是时间.所以,通常情况下,各类监控系统的后台数据库都可以认为是时间序列的数据存储,并由此诞生了一批针对监控数据存储开发的数据库,其中最有代表性是RRDtool和Graphite. 1.RRDtool(Round-Robin DataBase Tool) Round-Robin(循环)在运

零基础学习云计算及大数据DBA集群架构师【企业级运维技术及实践项目2015年1月27日周三】

Nginx 基于 ip 的虚拟主机配置 { #serverb (1)/etc/nginx/conf.d/* [[email protected] conf.d]# vim ip.conf server { listen 192.168.1.88:80; root 88.com; index index.html; } server { listen 192.168.1.87:80; root 87.com; index index.html; } [[email protected] ~]# i

《运维前线：一线运维专家的运维方法、技巧与实践》出版了！

<运维前线:一线运维专家的运维方法.技巧与实践>(以下简称<运维前线>)是前线系列的一个子集,前线系列图书的出版理念是邀请多位业界专家,总结所在行业的最新理念或深度实践经验.前线系列图书不同于市面上的很多图书,这类书并不系统,有的只是一线专家的实战经验,人们常称之为"干货".一篇文章.一家公司.一个案例.一个场景,独立成篇,在满足碎片化阅读的同时,也能让读者进行横向比较和深入思考.本系列图书不强调大而全,追求的是每篇文章都是精品,希望能给读者带来深度的启发和收获

关于Prometheus运维实践项目

关于Promethues运维实践项目 1. 什么是Prometheus运维实践项目 ? 是什么 ? Prometheus,普罗米修斯,是古希腊神话中为人间带来火种的神. ? Prometheus运维实践项目,是作为IT运维从业者的我,根据自己的知识背景.工作经历.思维层次,现有条件,想要创建推进完成的一个运维学习和实践平台. ? 通过这个项目的推进和平台的构建,我本人能够探索巩固完善自己的运维知识体系,提高运维认知和实践能力,其他偶然访问到我博客或者项目的运维初学者或同行,也能够明确行路方向和实