曾经看过一部话剧《一个无政府主义者的意外死亡》,讲的是一个意大利警局的故事,警察局长及警员将一个在押的无政府主义分子刑讯致死。局长找来一个疯子编排无政府主义分子的死亡过程,以期掩盖其死亡真相。如今,讨论行业/企业业务连续性,不知为什么想到了这部话剧,但不同的是,警察局要做的是掩盖真相,而我想做的是查找真相。
从意外说起
为了应对数据中心意外宕机,我们采取了很多措施,从数据中心机房供电、制冷;到服务器计算、存储和网络全部采用冗余的设计,其目的就是防止意外宕机事件。
对于行业/企业而言,因为意外宕机所造成的影响是灾难性的,以纽约银行为例,在2001年的“911”事件中,该行数据中心遭到破坏,通讯线路全部中断一些分支机构被迫关闭,其第三季度的利润因此下降33%,险遭灭顶之灾。据统计,Google宕机5分钟意味着55万美元的损失; Amazon 100分钟损失近700万美元;苹果iClould宕机将会有300万用户受影响。对于医疗行业,更是人命关天的事情。
但是仔细分析这些意外宕机事件就会发现,类似“911”事件这样的灾难的发生率不足1%;其余85%是计划内的停机事件,例如生活中我们会经常遇到的系统升级,对于这些计划内的停机事件,由于可预见和控制,因此通过合理安排将影响降到最低,所以并不足虑。真正让行业/企业CIO感到棘手的则是计划外的停机事件,这些事件没有征兆,事发突然,影响面广,后果严重。据统计,计划外停机事件的比例为15%左右。
可以毫不夸张地说,所有冗余手段都是针对计划外的停机时间,为此,我们设计了冗余、Cluster(集群)等手段,用于防止设备的失效。在“虚拟数据中心顶级容灾之道”一文中,我们介绍了VPLEX“双活”数据中心是如何实现RTO、RPO都为0的数据中心业务连续性方案的。但与此同时,我们需要考虑另外一个问题,如果人为操作导致系统失效怎么办?即使能够在第一时间启用备份系统,但这种逻辑性的错误仍然没有办法消除。
CDP与业务连续
如何有效应对逻辑性错误离不开RecoverPoint这样的CDP(Continuous Data Protection,持续数据保护)技术方案。RecoverPoint可以将每一个写操作,实时地写到生产卷和副本卷。不仅仅用于备份,也可以用于容灾恢复。比如当用户在12:00的时候发生了误删除操作,那么可以通过选在11:59的镜像恢复,从而保证业务的可用性,RecoverPoint恢复可以精确到秒级。这对银行等在线交易用户来说,RecoverPoint非常重要。
这里涉及到一个概念——CDP(持续数据保护),该技术是针对传统数据备份技术的一次重大突破。传统数据备份解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。
CDP系统,如RecoverPoint会不断监测关键数据的变化,从而自动实现数据的保护。CDP在操作系统核心层植入文件过滤驱动程序,对于需要CDP连续备份保护的文件,当CDP管理模块经由文件过滤驱动拦截到其改写操作时,则预先将文件数据变化部分连同当前的系统时间戳(System Time Stamp)一起自动备份到CDP存储体上。从理论上说,任何一次的文件数据变化都会被自动记录,这也是持续数据保护名称的由来。
相对于数据保护时间点,可以将CDP技术分为真CDP(True CDP)和准CDP(Near CDP)。其中,准CDP技术是按照一定的时间频率,持续的记录并备份数据变化,每次备份有一定时间窗口,需要数据恢复时,可以恢复到过去备份的时间点,并不能形成完全意义上的持续保护。。而真CDP技术是持续不间断监控并备份数据变化,可以恢复到过去任意时间点,是真正的实时备份。2011年,SNIA(全球网络存储工业协会)CDP技术小组明确指出了CDP三大标准:1.可以捕获任意的数据变化;2.至少可以备份到另外一个地方(异地容灾);3.可以恢复到任意时间点。依据这样的标准,复制类技术(同步以及异步镜像等)、快照技术(指针快照以及分割镜像快照等)以及任何有备份窗口的计划备份都不属于CDP产品。
合作伙伴制胜之道
企业业务连续性的需求,实际上就是真CDP的需求,也就是说,只有保障了真CDP,才能实现业务连续。
如今,针对硬件设备,如服务器、存储和网络等,针对应用有类似VPLEX这样的“双活”解决方案,针对人为的误操作等逻辑错误,可以借助RecoverPoint这样的数据备份和恢复解决方案,从技术上来说,完全可以满足行业/企业业务连续性的需求。
目前市场上,业务连续性解决方案有很多,很多方案都号称可以实现灾难的无缝切换,在很多演示场景中,也确实可以实现灾难的无缝切换,但到实际应用环境中,灾难发生后,这些方案统统失灵了。
业务连续性,特别是关键业务,对行业/企业来说是生死攸关。不仅对产品技术方案要求高,这对于商家咨询、服务能力要求也非常高。业务连续性的较量,也是商家的实力的较量,你的经验、咨询服务能力、产品技术实力都会对最终结果产生影响。
保持业务连续性不是一个可以一劳永逸的事情,而是一个从方案到运维的慢慢征程,选择好合作伙伴将非常重要.
有关业务连续性的意外死亡