2017年2月28日,AWS S3故障,起因:调试时输入错误指令,意外移除大量服务器导致S3不能正常工作;
2017年3月22日,微软云服务一个月内出现又一次宕机(上一次是2017年3月7日);
2017年6月11日,谷歌位于美国数据中心的App Engine服务出现大面积故障;
2018年6月27日,阿里云故障,起因:运维操作失误触发未知bug;
2018年7月17日,AWS管理控制台间歇性失灵;
2018年7月18日,谷歌云平台全局负载均衡服务发生中断;
2018年8月5日,一家创业公司声称,由于其存放在腾讯云的数据全部丢失且无法恢复,要求腾讯云赔偿1100余万人民币……
当越来多的企业将其开发测试、核心生产等工作负载迁移至云端,在充分享受到云计算带来的按需所取、弹性分配等好处同时,大型云提供商在运行过程中暴露出的故障事件,也让用户看到了云的负面影响。
为什么云存在一定的负面影响?
云计算技术从落地商用至今,确确实实给用户带来了极大便利,同时,其安全性能与稳定系数较传统的托管、租用有非常大的提升。
挑选一个易理解的点对比来说明:
传统服务器托管、虚拟主机,构建于单台物理服务器上,如果该物理服务器的任何硬件(内存、主板、电源、磁盘、网卡……)出现故障,那么服务肯定要中断,相信很多站长或做运维的朋友对此深有体会吧。
而云服务器,基于分布式集群技术,多台物理设备组建为一个集群,数据打散写到多个点,即使其中一个点或多个点损坏,也不会影响服务,更难影响到数据的安全。总体来说,云服务技术利大于弊。
云服务一般都存在哪些单点故障隐患?
云服务无法保持100%在线,即便是99.9999999%的可靠性依旧存在着故障隐患的风险,数据库、应用服务器、机房等发生单点故障可能就会对云服务器的数据储存产生巨大的影响。
数据库:我们知道数据库的单点隐患会对业务产生很大的影响。数据库故障会导致整个应用无法提供服务。随着业务规模的发展,当单台数据库可处理的业务能力已经无法满足业务需求时,必然引入了主、从负载均衡的数据库架构,同时把数据库热备问题解决。
应用服务器:使用期限达到数年的服务器容易出现各种各样的硬件问题而导致宕机,所以我们用到了 LVS 负载均衡技术把几台服务器组成集群来提供服务。
机房:一般机房单点故障出现的频率为一两年一次,如电力故障和网络故障。但在今天这个云时代,大家都无法接受两年一遇的机房单点故障,所以跨地区异地容灾架构开
如何才能尽可能的做到无限接近100%安全?
随着国内公有云服务的普及,越来越多的企业开始选择公有云服务。但云服务也无法保证达到100%在线,总有可能突发意外导致服务故障。假设放在云服务器上的数据全部丢失,甚至连备份数据也丢失了,这可能会导致企业业务停滞,对企业来说无疑是致命的打击。
那么,极端或者意外情况出现之前,我们该怎么做到无限接近100%的安全呢?
1、最笨的办法:
这也是个苦力活,定时将数据备份到本地。如果不嫌辛苦,本地的备份也多做几个。
2、相对完善一些的机制:
仔细了解服务商的快照/备份机制,制定符合自身实际情况的机制。
每家服务商的快照备份策略不同,部分服务商需要用户手工创建快照备份;部分服务商提供收费定制快照备份。
像小鸟云推出的快照服务,就是一个很好的的解决办法,小鸟云快照可以保留某个时间点上的磁盘数据状态。使用快照,可以快速、方便地将云服务器还原到以前的状态。
3、购买服务商两个以上数据中心节点的云服务器,数据互通、互为备份。
这样做还有一个好处是,若A节点出现故障,可即时启用B节点,保障服务不中断。
做到以上两点,相信你的数据就已经无限接近于100%安全了。
原文地址:http://blog.51cto.com/11163677/2178512