怎样最小化云宕机事件的影响?

云计算并不是天生就是不可靠的,但是如同所有的IT形式一样,必须仔细挑选和管理云服务以实现特定的可靠性和可用性目标。这些步骤可以是合同形式的、是技术形式的或者甚至可能需要重新思考你的应用程序架构。如果没有经过慎重考虑,那么你从云计算中的收益可能要少于你的预期。

SLA降低了使用云厂商数据中心而产生的风险

免受云宕机事件影响的第一步就是要评估云厂商数据中心的可靠性。大部分的云厂商都拥有着很少数量的数据中心,通常情况下只有一个,而这些数据中心易于产生与企业相同类型的故障。最广为人知的云计算故障往往是那些整个云计算数据中心发生故障的事件,通常都是由于自然灾害而发生的故障。为了在有可能发生的故障中保护好你自己,你必须要求特定的数据中心配置信息或从你的供应商那里获得可用性保证。

对于服务器、存储设备和网络的可用性,最好的策略是在谈判时就确定SLA,以便于指定可用性保证和发生故障时恢复服务的时间。用户应当了解在云计算数据中心所在的区域是否会经常发生诸如飓风或暴风雪这样的灾害性天气,这一点是非常重要。同时,还应确定数据中心是否配有备用电源,是否配有一个能够接替正常工作的备用数据中心。

备份数据中心必须位于不同于主数据中心的另一区域,所以它就不会受到相同问题的影响,同时它还必须拥有足够的容量以处理云应用的故障转移。由于很少有供应商能够为主数据中心的100%故障转移提供足够的备份数据中心容量,所以SLA将说明如何管理故障转移。

在这种情况下,为优先级支付费用可能是必要的。如果你的云服务包括了地理多样性以支持分布式的用户群体,那么你自己的各种设施就可以为云厂商故障提供某些保护措施;仔细检查你的合同以确保有足够的容量来处理额外的负载。

网络性能问题或缺少将导致云宕机事件

云计算故障的最常见原因通常并不是云计算,而是网络。大部分的云应用都是通过互联网进行访问的,而互联网可用性则是大多数云宕机事件的罪魁祸首。解决这个问题的唯一方法就是采用虚拟私有网络(×××)或虚拟局域网服务,或确保同时让多个互联网服务供应商(ISP)提供服务以供网站访问云应用使用。如果安全性和合规性问题可以得到解决,并得到供应商的合同确认,那么这是一个很不错的选择。

作为云服务的使用者,很多用户对云服务的了解仅仅只是停留在对服务、技术的选择和应用层面上,对云端坏境的整体构建、数据安全等不甚了解,因而捍卫数据安全则成为了云提供商的主要任务之一。

经过三年的不断发展,小鸟云在数据安全所作的努力已得到了显著的效果。小鸟云通过协助用户对自身的云端数据进行把存储管理以及安全把控等手段,为用户制定了一个可靠的数据管理策略。

首先,小鸟云计算十分注重数据的安全防护措施。在数据安全防护措施方面,小鸟云为数据建立和采用符合国际标准的防护技术。采用基于文件分块的完全副本冗余方式(冗余2份,副本3份),提高数据存储持久性。

其次,小鸟云计算也十分注重对数据的隐私的保护。小鸟云在数据隐私方面采用的是HTTPS安全加密传输协议,内网通信采用高强度国际加密标准,防止数据被窃取,维护数据的安全及完整性;同时小鸟云具有具有完善且严苛的用户数据保密制度及措施,并承诺在任何情况下绝不会将用户数据泄露给第三方。

最后,小鸟云计算也格外注重建立完善的防×××体系。比如,小鸟云为旗下云产品提供5G-20G免费的DDoS×××流量清洗,通过专业的DDoS防护设备来为用户互联网应用提供精细化的抵御DDOS×××能力,如UDP Flood×××、SYN Flood×××和CC×××等。

必须解决云应用的弹性问题

如果云计算数据中心和云计算网络故障问题都已解决,那么下一个问题就是应用程序本身的弹性问题了。管理高可用性和云服务的最大问题都涉及数据库访问和可靠的事务处理。

如果一个数据中心发生故障,即便另一个备用数据中心能够备份使用这些数据的应用程序,在数据中心中所存储的数据都是不可用的。除非是在多个位置的“热待机”状态维护应用程序数据,否则一次故障都将导致数据访问丢失,从而使其它冗余措施都大部分实效。这个问题同样也存在于内部数据中心备份,因此那些为他们自己数据中心提供冗余的企业会发现相同的措施在云计算中也会同样有效。与其说这是个技术策略还不如说这是个金融策略;由于云计算存储和服务费用的原因,在云计算中维护冗余数据的成本要更高。一个更好的解决方案是把你所有的内部数据都布署在一个高可用性的受保护数据中心中,并从多个云计算位置进行访问。

最好的可用性管理必须是与应用程序本身集成。任何时候,数据库更新都是对多个副本同时进行的,如果在更新过程中发生了故障,那么数据完整性就存在着丢失的风险。联机事务处理系统通常包括一个“两阶段提交”的过程以确保不会由于无法成功更新所有数据库副本而发生问题。有时,单个数据库的更新也会因为网络故障而处于一个不确定的状态。有必要审查专为确保网络故障或数据中心故障而开发的应用程序,从而确保所存储的数据库不会发生数据受损或不一致的风险。

期望云应用能够具有比内部应用相同或更高的可靠性是不合理的。此外,你所设定的可靠性和特定目标可能会让你花费很多。当构建你的业务案例时,请记得考虑可靠性成本,或者你可能会发现你的应用程序必须在可靠性和成本之间作出某种妥协。

原文地址:http://blog.51cto.com/11163677/2176281

时间: 2024-10-19 04:07:48

怎样最小化云宕机事件的影响?的相关文章

趁阿里云宕机之际,我教妹子部署阿里云服务器,妹子邪恶的笑了

上一节教会妹子使用IDEA创建WEB应用之后,妹子的学习兴趣大增,有事没事都缠着我教她技术.看来学好技术好处非常多啊,欧耶!详情请看: 教妹子用IDEA创建web应用,部署到Tomcat服务器 最近阿里云宕机事件闹得沸沸扬扬,把我们的程序员兄弟弄的半夜起来加班修复,真是罪大恶极. 然而,伟大的哲学家认为,事物都是有两面性的.阿里云事件彻底启发了我,真的猛士要敢于直面淋漓的鲜血.程序员就应该迎难而上,到bug最多的地方去. 大家试想,如果我教会了妹子使用阿里云服务器,而阿里云又常常出问题,那妹子岂

云宕机

云计算正日益融入我们的生活,可能有时候我们都意识不到自己正在使用云服务.正因为如此云计算宕机的影响才更严重.我想,最近一个月发生的这些宕机事件给我们的启示有三点: 1.云计算不是万灵丹,我们不过是租别人的计算机而已.因此自己数据中心可能出现的问题就算是转向了云计算也依然存在. 2.云计算极大简化了用户对资源的操作,但这有好也有坏.有不知多少人为了你能正常使用操碎了心,但出了问题的时候你作为用户完全什么也做不了. 3.企业有自己的替代方案很重要.可以是另一家云服务提供商,也可以是自己后备的数据中心

从谷歌宕机事件认识互联网工作原理

原文转自:http://kb.cnblogs.com/page/166210/ 英文原文:Why Google Went Offline Today and a Bit about How the Internet Works 译者注:本文中提到 CloudFlare 是一家总部位于美国旧金山的内容分发网络(CDN)服务公司,由 Project Honey Pot 项目的三位前开发人员成立于 2009 年.2011 年 10 月被华尔街日报评为最具创新精神的网络科技公司. 今天,谷歌的服务经历了

深入解析和反思携程宕机事件【转自https://www.infoq.cn/】

宕机时间 2015 年 5 月 28 日 携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了.关于事故根源,网上众说纷纭.作为互联网运维老兵,尝试分析原因,谈谈我的看法. 宕机原因分析 网上有各种说法,有说是数据库数据和备份数据被物理删除的.也有说是各个节点的业务代码被删除,现在重新在部署.也有说是误操作,导致业务不可用,还有说是黑客攻击甚至是内部员工恶意破坏的. 先说一下最早传出来的"数据库物理删除",其实这个提法就很不专业,应该

由Redis的hGetAll函数所引发的一次服务宕机事件

昨晚通宵生产压测,终于算是将生产服务宕机的原因定位到了,心累.这篇博客,算作一个复盘和记录吧... 先来看看Redis的缓存淘汰算法思维导图: 说明:当实际占用的内存超过Redis配置的maxmemory时,Redis就会根据用户选择淘汰策略清除被选中的key. 业务场景:用户通过微信入口来访问一个页面: 测试场景:通过多线程模拟定量的并发来访问页面服务: 涉及架构:springsession+Redis集群,容器部署: 问题描述:固定并发数压测10分钟,压测开始后半小时,Redis连接数激增,

如何有效预防宕机?你需要掌握这4个方法

随着应用架构的不断演进,IT 系统也变得越来越复杂,这样就容易产生各类宕机事件.就在今年,国内外就出现了多起宕机事故. 2015年1月27日,网友发现无法登陆 Facebook,页面显示「对不起,出故障了,目前正在抢修,会尽快修复」. 2015年3月11日,包括 App Store.iTunes Store.Mac App Store 以及 iBooks Store 在内的一系列苹果在线商店服务,遭遇大面积服务中断.据统计事故恢复时间长达11个小时. 2015年5月,陌陌.网易.支付宝.携程网.

【甘道夫】HBase随机宕机事件处理 & JVM GC回顾

一.引言 本文记录了困扰团队两周的HBase随机宕机事件的解决方案,并回顾了JVM GC调优基础知识,供各位参考. 欢迎转载,请注明出处: http://blog.csdn.net/u010967382/article/details/42394031 二.实验环境 16台虚拟机,每台4G内存,1核CPU,400G硬盘 Ubuntu 14.04 LTS (GNU/Linux 3.13.0-29-generic x86_64) CDH5.2.0套装(包括相应版本的Hadoop,HIVE,Hbase

平时人家说的宕机是什么意思?

对于我这样一个刚踏入互联网圈的新人来说,在跟圈内同事交流的时候,发现他们最近经常在讨论“宕机”这个问题.那么这个宕机到底是什么意思呢? 宕机,多指一些网站.游戏.网络应用等服务器一种区别于正常运行的状态,也叫“Down机”.“当机”或“死机”.宕机状态不仅仅是指服务器“挂掉了”.“死机了”状态,也包括服务器假死.停用.关闭等一些原因而导致出现的不能够正常运行的状态. 说到这,大家可能明白了原来宕机是和服务器有关的一种状态,通常开发和运维人员对宕机这件事最为敏感.服务器一旦宕机会给服务商或者访客造

从Appstore宕机看DNS解析的重要性

3月11日,就在苹果公司高高兴兴发布完AppleWatch后不久,其网站便惨遭全球性宕机,宕机故障的持续时间长达11小时,期间App Store.iTunes Store.iCloud等苹果互联网在线服务无法访问.如此大面积.长时间的网络服务中断,堪称近年来苹果在线服务最大的一次危机事件. 根据外媒网站报道,该次大规模宕机导致全球苹果用户无法访问和购买,对苹果造成至少2500万美元的直接损失:另外,此次重大事故也影响到了苹果的股价,事件后苹果股价大幅下跌了 1.82 %, 瞬间蒸发 130 多亿