如何有效预防宕机?你需要掌握这4个方法

随着应用架构的不断演进,IT 系统也变得越来越复杂,这样就容易产生各类宕机事件。就在今年,国内外就出现了多起宕机事故。

  • 2015年1月27日,网友发现无法登陆 Facebook,页面显示「对不起,出故障了,目前正在抢修,会尽快修复」。
  • 2015年3月11日,包括 App Store、iTunes Store、Mac App Store 以及 iBooks Store 在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时。
  • 2015年5月,陌陌、网易、支付宝、携程网、艺龙网、招商证券、同花顺、齐鲁证券接连发生故障......

宕机事件会引发:

  • 最直接或者间接的经济损失!如果是社交类、服务类的应用,就会严重影响用户体验,会造成用户流失,其后果不亚于一般的经济损失,甚至直接影响到品牌价值。

* 宕机事件发生后,必然会耗费大量工程师的精力和时间,这也是重要的「人力资源」损失。而且频发的宕机事故,会严重影响整个团队的士气。

所以当故障发生后,最快恢复故障是第一要务。而故障恢复时间(mean time to resolve)是重要的考核指标,那么如何有效降低故障恢复时间,就是运维团队面临的最严峻挑战。

预防宕机事件的 4 个方法

降低事件和告警数量

相信不少同学有过被大量的告警邮件、短信撑爆邮箱的经历。更有甚者,专门采购一台手机来接收各种监控短信,但大量无效的干扰事件、告警短信蒙蔽了运维同学的双眼,而这样会导致一个后果,就是一些重要故障可能会被忽略掉了。因此识别和确定重要故障尤为重要,而且大量的告警信息也是不合适的。所以,我们需要持续地降低事件和告警数量,但随着 IT 系统的不断升级变更,配套的监控就会调整,此时告警数量又会增加,所以我们要进行持续的调整。

国内第一个 SaaS 模式的云告警平台 OneAlert 就可以帮助用户很好地解决这个问题,该平台集成了国内外多种主流的监控和支撑系统,在一个平台上就可以集中处理所有 IT 事件, OneAlert 可以深度分析事件趋势,并进行回顾和优化操作,从真正意义上降低事件和告警数量。

降低故障恢复时间

首先需要收集有效数据,通过 OneAlert 对事件进行收集和分析,我们发现了两种情况:事件少,处理时间长;事件多,处理时间短,这两者都不合理。前者是不出事,出事就是大事,总结起来就是一句话:「监控不到位」。后者就是频繁的小事,经常会耗费整个团队的大量精力。最合理的方式就是事件和处理时间的平衡。中间数(median time of resolve)的处理时间应该是20-30分钟,这仅供参考。当然,最理想的状态是事件和恢复时间同步日趋减少。

降低故障响应时间

如果我们的系统发生故障,第一时间能够发现问题当然是最好的,然而如果没有成熟的管理体系,故障的发现时间会延迟很久。例如:凌晨1点发生故障,早上7点起来看手机才知道故障,就算再快处理,也是好几个小时之后的事情了。所以建立快速响应机制是非常有必要的,最理想的方式就是响应时间能够迅速下降。在这一点上,OneAlert 提供了微信和电话的报警功能,能让用户第一时间得到报警通知,可以最快响应故障问题的处理。

升级策略

当事件发生后,如果在规定时间内没有处理,而事件可能会无限期的拖延或者是遗漏,如果建立有效的升级策略和高效的管理组织,就能够避免类似问题发生。现在,OneAlert还提供了事件升级机制,如果一线值班人员拖延或者遗漏,则会升级到二线,以此类推,从而有效地防止故障问题疏漏。

我们相信,如果能够有效利用上面4个数据指标,以数据驱动,并进行持续的改进和优化。就可以有效的降低故障恢复时间,而且有序的事件处理过程,也能够让我们的团队成员保持良好精神和战斗力。

OneAlert 是北京蓝海讯通科技有限公司(OneAPM)旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网,欢迎免费注册体验 。

转自:http://news.oneapm.com/onealert-dangji/        更多 http://www.oneapm.com/ci/feature.html

时间: 2024-08-28 20:18:59

如何有效预防宕机?你需要掌握这4个方法的相关文章

MongoDB 宕机案例

2015年7月27日  帮助朋友解决公司MongoDB 宕机案例 对于数据库 选型很重要.公司内部要建立自身知识库,在没有发生问题前 做好判断,提前预防故障.

网络流量分析——NPMD关注IT运维、识别宕机和运行不佳进行性能优化。智能化分析是关键-主动发现业务运行异常。

科来 做流量分析,同时也做了一些安全分析(偏APT)--参考其官网:http://www.colasoft.com.cn/cases-and-application/network-security-analysis.php 作为安全工程师的你,想发现有谁在攻击我,还原攻击过程并且取证么? 作为立志成为网络技术大拿的你,想在学习理论知识的同时,了解实战中会遇到的哪些问题,这些问题用什么样的思路去解决么?如果以上答案为Yes,那么<CSNA网络分析经典实战案例>就是你的菜,以下内容全是网络安全真

Redis架构之防雪崩设计:网站不宕机背后的兵法

Redis架构之防雪崩设计:网站不宕机背后的兵法 原创: 付磊,张益军 高可用架构 2017-03-24 导读:互联网系统中不可避免要大量用到缓存,在缓存的使用过程中,架构师需要注意哪些问题?本文以 Redis 为例,详细探讨了最关键的 3 个问题. 一.缓存穿透预防及优化 缓存穿透是指查询一个根本不存在的数据,缓存层和存储层都不会命中,但是出于容错的考虑,如果从存储层查不到数据则不写入缓存层,如图 11-3 所示整个过程分为如下 3 步: 缓存层不命中 存储层不命中,所以不将空结果写回缓存 返

深入解析和反思携程宕机事件【转自https://www.infoq.cn/】

宕机时间 2015 年 5 月 28 日 携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了.关于事故根源,网上众说纷纭.作为互联网运维老兵,尝试分析原因,谈谈我的看法. 宕机原因分析 网上有各种说法,有说是数据库数据和备份数据被物理删除的.也有说是各个节点的业务代码被删除,现在重新在部署.也有说是误操作,导致业务不可用,还有说是黑客攻击甚至是内部员工恶意破坏的. 先说一下最早传出来的"数据库物理删除",其实这个提法就很不专业,应该

VmWare平台Windows Server 2012 无响应宕机

我们生产服务器都部署在VMware ESXi 5.5平台上,最近大半年的时间,偶尔就会出现操作系统为Windows Servre 2012的服务器出现没有任何响应(unresponsive)的情况,出现问题的时候,服务器有下面一些现象: 1: 应用程序无法访问SQL Server数据库,使用Microsoft SQL Server Management Sutdio去测试连接数据库,也会返回连接错误. 2: 网络有时候能Ping通,有时候是Ping不通的情况. 3: 远程连接无法访问服务器,从V

【IT运维监控】集团宕机引发对运维人员的思考 

前不久某大型集团官网和APP突然无法正常使用引发热议,不少人幸灾乐祸,也引发出了各种的谣言和段子,根本难以体会集团内部所受的压力,特别是作为一个大集团内部的运维人员所承受的各种压力和不安. 后 来,原支付宝运维团队负责人针对此事发表了一篇文章,让不少的运维人员深有感触,作为肩负运维监控使命的运维监控工具--PIGOSS BSM 也同样感同身受.面对层出不穷的运维安全隐患,当下运维人员急需一套高效的7*24小时都能担负监控任务的工具,为自身的运维工作减负,告别之前加班熬夜 但没有工作成绩的"怪现像

独立解决数据库宕机问题

1. 发现数据库宕机,(ps -ef | grep smon )首先考虑是不是RAC,是否影响正常的生成环境.确定大概修复时间.    如果是RAC,那么到到另一台数据库上输入操作命令.查找静态参数文件进行启动. 2.在本地宕机的数据库系统中也可以找到静态参数文件.一般情况下的位置是cd $ORACLE_HOME/dbs  找到静态参数文件,(可以参考另一个实例上的实例 ps -ef | grep smon ) 或者cd $ORACLE_HOME/dbs 3.本次数据库宕机原因,可以去alert

Solr4.8.0源码分析(26)之Recovery失败造成的宕机原因分析

最近在公司做SolrCloud的容灾测试,刚好碰到了一个比较蛋疼的问题,跟SolrCloud的Recovery和leader选举有关,正好拿出来分析下. 现象是这样的:比如我有一台3个shard的SolrCloud,每一个shard又有一个leader和replica.由于SolrCloud的leader选举策略,造成了IP1中同时出现了shard1和shard2的leader. 这个时候往collection update数据进去,以shard1为例,数据转发过程,IP1_leader –>

Activemq 宕机解决方案

关于消息服务的集群,大概分为Consumer集群(消费者集群)和Broker集群(消息服务器集群)两种.ActiveMQ提供了一种叫做失效转移(也叫故障转移,FailOver)的策略.失效转移提供了在传输层上重新连接到其他任何传输器的功能.使用它很简单,只需要在uri中配置就行了Failover:(uri1.....n) 如果某个ActiveMQ客户端发现uri1地址失效了,它会立即转向uri地址列表中其他可以连接的消息服务器进行重连,以保证继续正常工作,请注意,并不是uri1失效了就会选则ur