数据中心双活该如何构建



ICT架构师技术交流

微信号
ICT_Architect

功能介绍
分析和交流ICT行业最前沿技术,分享更多存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。

在今天文章开始之前,首先感谢大家的支持,从昨天的付费阅读[付费]
大数据时代下数据重删的考虑
和投票来看,虽然只有一部分读者参与了赞赏和投票,但就是由于这些力量的支持,才推动我们公众平台不断改进和成长。赞赏不是最终目的,希望昨天的投票大家都能参与并提出宝贵意见。

因为最近经常看到大家在讨论数据中心双活解决方案,所以今天把前期大家的疑问和问题进行汇总,加上我个人的见解写成一篇比较全面的文章,分享出来供大家参考。由于工作原因,可能今后近一个月的时间不能给及时大家写文章了,但是前期跟大家承诺的国内云厂商分析和昨天的投票情况,会在这段时间过后尽快呈现给大家。

双活本身其实有广义和狭义之分,但是在数据中心这个前提下,我们所说的双活就是广义上的应用、网络、存储和数据的端到端的数据中心双活,顾名思义,应用、网络、存储都应该是双活状态,当然在项目部署和实施过程中,技术上支持部分处于双活或HA状态、部分是单点状态,只是这种方式会使整体方案的双活能力大打折扣。下面是一个典型的数据中心双活组网图。更明确的说,这是个基于阵列双活组网图。

数据中心A和B之间采用网络互联,数据中心内采用传统两层或三层组网方式互联,接入层链接业务服务器、核心/汇聚层通过大二层互通技术链接到对端数据中心。大二层互联技术一方面主要解决VM在不断业务的情况下在数据中心之间在线迁移,MAC地址不变故而业务不断;另一方面解决VLAN个数的限制,在成千上万的服务器的数据中心中,为了保证数据安全和网络隔离,传统VLAN是不行的。图上大二层采用CSS+iStack方式实现,当然大二层网络的实现方式各个网络厂商各不一样,但是Trill的实现方式基本每个厂商都会支持。

存储、交换机和服务器通过专门的SAN网络互联,基本都是采用冗余组网。两个数据中心的交换机通过FC互联,注意是FC而不一定非是光纤,采用FC协议的原因就是其高效率和可靠性。这个链路是用来存储之间实时同步两端数据的,当然,存储之间集群的心跳也通过该网络完成。

服务器集群,准确的说应该是应用集群之间数据的同步,是通过大二层网络完成的,目前企业比较常见的集群应用是VMware、Hyper-V、Oracle
RAC、SQL MSCS/MSFC,IBM
DB2/PureScale等等,其中Oracle RAC和PureScale是Active
Active集群。应用之间的心跳也是通过该网络实现。

从图上我们看到了第三方仲裁,该仲裁其实是存储集群的仲裁服务器或仲裁存储,目前支持仲裁服务器的厂商比较多,因为成本低,而且还可以在仲裁服务器中安装虚拟机,在VM之间进行HA提高可靠性;当然也有厂商采用存储,EMC在VMAX3双活中甚至采用VMAX3做仲裁,一套配置几块磁盘的高端是有些奢华,但是EMC就是喜欢玩高大上,个人觉得现在EMC屈身到DELL之后,这个策略可能要变。

然而第三方仲裁也在技术上不一定非要放在第三个站点,虽然很多客户是没有第三个数据中心、也不愿租用第三方数据中心。很多厂商也提供优先存活站点策略,在有些情况下,如果第三方仲裁失效,我们也可以通过优先存储站点来提高业务,但是如果运气不好,优先存活站点发生故障,后果很严重。所以第三方站点仲裁更保险。

此外,服务器应用集群之间也是需要仲裁的,但这个仲裁如何配置是跟应用的要求强相关的。仲裁链路一般情况下不要求非要大二层互通,只需要IP三层可达即可。

然而我们每个用户对双活数据中心资源访问的访问,一般是通过Internet完成,要经过服务器本地缓存、Global
NDS、DNS解析定位到资源,当然为了保证负载均衡,数据中心会部署GSLB和SLB来保证每次方案都能负载均衡到相应的数据中心、相应的服务器上。GSLB和SLB之间实时同步两个数据中心IP资源情况,通过HA或本地优先方案的策略实现资源访问IP分配;当然,在DNS阶段可以对两个数据中心同时解析,把RTT时间较小IP返回给用户,用过那这个IP访问资源。

由于篇幅有限,改组网的细节我不打算讲的很细,后面有机会再跟大家分享。接下来我们看看基于网管的双活方案。如下图,对你没看错,这个就是华为基于VIS存储网管的双活解决方案组网图。

网管的双活和存储双活的区别,一方面在于在组网上增加了硬件设备,这无疑增加了成本、同时网关的故障会引起业务切换或业务中断,相当于增加了整个方案故障点,另一方面网关的引入会可能会成为性能的瓶颈,解决该问题的方案就是增加网管集群的节点个数,还好Vplex、SVC和VIS都支持多节点集群扩展。

还有个区别是网关双活一般需要承担存储故障后的业务切换,承担数据两个数据中心间同步工作,所以网关双活可以缓解存储性能压力。网关层双活不需要多路径进行过多支持,网关节点间通过卷镜像的方式进行数据同步。

双活基本技术条件有两个,一是数据实时副本,当一端的数据破环或无法访问时,可以通过另一份完全一样的副本来提高服务;另一个就是服务器、存储、网络等集群的自动切换和恢复。只要满足这两个条件,理论上就可以实现数据中心双活,所以基于应用层也可以实现应用层双活。

基于应用层的双活方案目前有OracleRAC、IBMGPFS、SymantecSVC和PowerHAHyperSwap等。华为VIS可以实现双活,当然Symantec
SVC也可以,只是一个基于网管而一个基于应用层;PowerHAHyperSwap配合DS8000存储复制技术的双活请参考浅析PowerHA
HyperSwap双活方案
。下面是IBM GPFS双活方案。

IBM GPFS双活方案采用IO
Failure Group技术进行数据副本保护,采用GPFS Active Active集群实现故障切换和恢复。基于应用层的双活方案目前应用不多,主要原因是基于应用服务器创建卷镜像、基于服务器同步数据、基于服务器故障切换对应用影响太大,所以在存储技术比较泛的情况下,客户更见容易接受基于存储或网管的方案。

然而目前我们看到的数据中心双活方案基本上都是基于SAN块存储,主要的原因是SAN存储的业务一般都是对性能、可靠性要求比较高的应用,如数据库、ERP、SAP等等,所以SAN双活方案应用比较广泛、支持SAN存储的双活方案厂商比较多;但是技术永远不是问题,NetApp的FAS和IBM的GPFS却具备NAS双活方案的能力,主要的原因是很多数据库,如OracleRAC和IBMPureScale支持数据库直接部署在NAS之上。

双活方案是灾备要求中级别要求最高的方案,所以双活方案的部署是有一些必要的要求。接下来我们详细讨论下。

双活方案对距离要求,由于双活数据采用双写机制保障数据强一致性,所以一般应用可接受的距离是同hu城100-300KM之间,虽然应用对IO延时和超时可以设置,但是我们还得考虑用户体验。数据同步链路一般采用FC交换机级联,当两数据中心直线距离大于30KM以后,需要DWDM波分等设备来对光信号进行中继,色散补偿。一般DWDM波分设备最大支持3000KM距离。

双活方案对网络要求,网络时延、带宽、误码率都会影响双活方案。由于两个数据中心数据实时复制,所以链路网络带宽必须高于高峰IO访问时的带宽;网络时延会影响整个应用系统业务响应;误码率会影响网络的利用率,误码率越高就意味着数据需要被重传,从而形象整个网络。

双活方案对性能要求,双活应该无疑对性能是有很高要求的,所以要求两个数据中心的存储、服务器等系统都应该是对等的,否则任何一方如果成为性能瓶颈都将影响另外数据中心。在网关双活方案中,还有考虑网关不要成为性能瓶颈。

所谓的真双活(ActiveAtive)和伪双活(ActivePassive),很多厂商讲的真双活就是两个数据中心存储上的一对镜像LUN设备,可以同时在两个数据中心接收来自一个集群应用的读写IO,数据的一致性需要存储双活集群和应用集群来保证。实际上这跟存储和应用类型关系很大,要求存储双活和应用双活都支持真双活才有意义。如果存储支持真双活,而应用是VMware(并非Active
Active集群),那整个方案也只能是Active Passive模式。

双活方案和多路径,基于存储的双活一般都需要多路径来完成在数据中心间的切换,所以一般双活方案提供商都会自己开发多路径进行一些优化。VMware就提供了PSA接口让存储厂商实现自己多路径模块,让厂商对存储方案路径和IO进行优化。然而专有多路径也并非是必须的,存储厂商也可以采用系统原生多路径实现双活,只是效果差而已。如Xenserver,Citrix没有类似VMware的PSA接口,所以无法支持第三方多路径,自带多路径Mutipath可以支持ALUA,只需要阵列也支持ALUA,也可以做到路径优化。

最后跟大家提一点,数据中心双活是指应用、网络、存储和数据的端到端的双活,那基于应用还能不能再创建应用集群呢,答案是肯定的。例如在服务器上基于VMware集群还可以在VMware的VM上创建Oracle
RAC或是SOL MSCS集群应用。今天就到此为止,如果大家对双活感兴趣,请多多支持,我会抽时间跟大讨论更详细的双活技术。



中国云计算大会是国内外云计算大数据领域最具权威性的多方融合的高端大会。

大会也给本号读者提供了购票专属优惠码WEMEDIA1JJ,可以得到100元优惠,优惠虽然不多,但也是为本号忠实读者争取的一点福利哈,大会详情和购票通道可扫描二维码或参看中国云计算界的第八次大会,获取更全面的大会信息。



阅读原文



时间: 2024-10-07 14:10:32

数据中心双活该如何构建的相关文章

从ORACLE RAC角度看跨数据中心的存储双活配置注意事项

ORACLE RAC在设计的时候是没有考虑跨数据中心双活的,它的设计目的是为一个数据中心内有着共享存储的多个主机实现负载均衡和高可用性.但是由于它的架构确实有着跨数据中心实现负载均衡和高可用性的潜力,所以有几家存储设备供应商对它的使用环境做了扩展,提出了跨数据中心的解决方案.ORACLE对此采取了默认的态度,但是建议所有的解决方案在投入客户生产之前进行仔细的测试. 对于RAC而言,跨数据中心解决方案的最大瓶颈是节点之间的interconnect,因为它对时延和带宽的要求都非常高.一般而言,本地i

双活数据中心架构分析及优缺点

什么是双活数据中心 ? 首先我们要知道双活就是Active-Active,故名思义就是两边都是活动在线提供服务的,是相对于传统的主备模式Active-Standby模式的.一个真正的双活方案是应该涵盖基础设施.中间件.应用程序各个层次的. 双数据中心同时对外提供业务生产服务的双活模式,两个数据中心是对等的.不分主从.并可同时部署业务,可极大的提高资源的利用率和系统的工作效率.性能,让客户从容灾系统的**中获得最大的价值. a.两个生产中心部署相同的业务系统,结合网络层.主机层或应用的负载均衡技术

物联网模式下的多活数据中心架构认识与实践

做互联网应用很重要的一点是要保证服务可用性,特别是某些业务更是需要7*24小时不间断的对外提供服务,任何停机.宕机都会引起大面积的用户不满.持续可用性是把业务服务化时一个需要考虑的重要指标,很多时候我们都会牺牲一些功能来换取可用性.如何保证服务的持续可用性,是每个互联网架构师一直坚持不懈追求的目标.在不同行业.不同场景下都有不同的解决方案.今天就与大家聊聊特来电在物联网模式下的多活数据中心架构上的认识和实践. 特来电是全球首家提出了将车联网.充电网.互联网三网融合的充电桩生态公司,拥有近18万个

高可用性应用程序弹性的关键是双活数据中心

导读 依赖于高可用性应用程序的企业应该采用双活数据中心设计,以确保可靠性和弹性.而运行高可用性应用程序的企业都必须回答以下基本问题:当底层通信基础设施不再可靠时,将如何创建具有弹性的应用程序架构? 依赖于高可用性应用程序的企业应该采用双活数据中心设计,以确保可靠性和弹性.而运行高可用性应用程序的企业都必须回答以下基本问题:当底层通信基础设施不再可靠时,将如何创建具有弹性的应用程序架构? 以一家咨询机构与用户的合作为例,该客户的主要业务应用程序具有高可用性需求.其客户将事务发送到主要数据中心应用服

从两地三中心到双活数据中心

两地三中心 两地三中心的有几种实现形式,下图是一种典型案例. 在这一案例中,正常情况下,业务运行在主机房的设备之上.主存储与辅存储存在单向同步关系,即主储存的所有数据变更都会实时同步复制①到次存储上,从而保证两个存储数据完全一致.同时,为防止极端灾害发生,主存储的数据变更也会通过异步复制②的方式同步到远程容灾机房的存储设备上. 当主中心因为各种原因中断服务时,可以通过手工命令或者软件自动切换的方式让业务切换到辅机房. 如果极端情况发生,辅机房也不能运行业务,那么远程容灾机房还有一份数据保存,可以

【涛哥带你看DC】江西测绘双活数据中心

2014年3月10日,江西省地理信息公共服务平台(政务版)正式上线运行.在半年之后的10月15日,涛哥来到江西省测绘地理信息局仔细了解支持此公共服务平台的后台数据中心的情况. 江西省测绘地理信息局今年8月才搬的家,新办公大楼位于南昌一处偏僻的地方(周围都在建商品房,估计很快也会热闹起来).大楼很气派,但看了内部就知道,很多地方还没有最后完工.新机房也建在这幢大楼里,与旧办公楼的机房构成了相距10多公里的"双活数据中心". 据江西省测绘地理信息局网络中心的负责人介绍,当初在数据中心的建设

用OpenStack构建中国人寿数据中心生产云

上云,保险业发展的必然趋势 近些年,金融科技蓬勃发展,保险行业作为金融领域的重要组成,云计算.大数据等关键技术正在深刻改变保险行业的生态,如何运用新技术推动效率.促进企业创新发展,成为保险企业未来的核心竞争力. 目前,国内已有诸多保险企业将云计算应用于信息系统创新建设中.既有传统保险企业积极开展私有云建设,又有新兴互联网保险企业全业务上行业云. 中国银保监(原中国保监会)发布的<中国保险业发展"十三五"规划纲要>中也明确指出要"推动云计算.大数据在保险行业的创新应

双活数据中心 是什么

出于灾备(Disaster Recovery)的目的,一般都会建设2个(或多个)数据中心.一个是主数据中心用于承担用户的业务,一个是备份数据中心用于备份主数据中心的数据.配置.业务等. 主备数据中心之间一般有三种备份方式. 的情况下,只有主数据中心承担用户的业务,此时备数据中心对主数据中心进行实时的备份,当主数据中心挂掉以后,备数据中心可以自动接管主数据中心的业务,用户的业务不会中断,所以也感觉不到数据中心的切换. 的情况下,也是只有主数据中心承担业务,但是备用数据中心不会对主数据中心进行实时备

SDN与NFV技术在云数据中心的规模应用探讨

Neo 2016-1-29 | 发表评论 编者按:以云数据中心为切入点,首先对SDN领域中的叠加网络.SDN控制器.VxLAN 3种重要技术特点进行了研究,接下来对NFV领域中的通用服务器性能.服务链两类关键问题展开具体分析.最后,阐述了前期开展的SDN/NFV技术试验工 作进展及相关结论,并对VDC应用产品进行了展望. 1 引言 伴随着云计算技术的兴起,数据趋于大集中,传统电信系统网络架构成为阻碍云数据中心发展的巨大桎梏.为满足数据中心在云计算环境下的虚拟网络资源调度和共享需求,未来的数据中心