从冷备到多活,阿里毕玄谈数据中心的异地容灾

原文链接:http://wx.shenchuang.com/article/2015-04-07/595023.html

什么是异地多活?

简单的理解就是在不同地方(一般指不同城市)建立多个数据中心,相对于冷备份而言,多活的特点在于,平时这些数据中心都是走流量的,会做业务支撑。阿里异地多活业务分为三个阶段,首先是单元化,然后是异地双活,最后是异地多活。为什么叫单元化?冷备份通常是备份全站,但是这样成本太高,而且由于平时不走流量,所以真正主站出问题时,进行站点迁移时不能保证冷备份站点一定能正常运行,或者把流量接管起来。单元化是异地多活基于成本考虑作出的决策,不会部署全站,通常只部署流量会爆发增长的部分(如跟买家交易相关的核心业务),在异地部署的只是一组业务,这组业务就称为单元。

异地多活面临的挑战

异地多活主要面临的挑战是延时,成本和一致性

  • 延时:异地项目最大的挑战是延时。跨城市一定会有延时的问题。在中国范围内,延时可能在一百毫秒以内。看起来单次好像没什么,但是像淘宝是个很大的分布式系统,一次页面的展现,背后的交互次数可能在一两百次。如果这一两百次全部是跨城市做的,整个响应时间会增加很多,所以延时带来的挑战非常大。怎样减少时延的大小,最简单最好的办法,就是让操作全部在同一机房内完成,那就不存在延时的挑战了。所以最关键的问题,就是怎样让所有操作在一个机房内完成。这就是单元化。
  • 成本:虽然冷备份成本很高,多活可以降低成本,但是大部分人还是更喜欢冷备,不喜欢多活,是因为多活的数据正确性很难保证。数据在多点同时写的时候,一定不能写错。因为数据故障跟业务故障还不一样,跟应用层故障不一样。如果应用出故障了,可能就是用户不能访问。但是如果数据写错了,对用户来说,就彻底乱了。而且这个故障是无法恢复的,因为无法确定到底那里写的才是对的。所以在所有的异地多活项目中,最重要的是保障某个点写进去的数据一定是正确的。这是最大的挑战,也是我们在设计整个方案中的第一原则。
  • 一致性:多个单元之间一定会有数据同步。一方面,每个单元都需要卖家的数据、商品的数据;另一方面,我们的单元不是全量业务,那一定会有业务需要这个单元,比如说买家在这个单元下了一笔定单,而其他业务有可能也是需要这笔数据,否则可能操作不了,所以需要同步该数据。所以怎样确保每个单元之间的商品、卖家的数据是一致的,然后买家数据中心和单元是一致的,这是非常关键的。
时间: 2024-10-03 16:32:24

从冷备到多活,阿里毕玄谈数据中心的异地容灾的相关文章

从冷备到多活,阿里毕玄谈数据中心的异地容灾

大数据时代,数据中心的异地容灾变得非常重要.在去年双十一之前,阿里巴巴上线了数据中心异地双活项目.InfoQ就该项目采访了阿里巴巴的林昊(花名毕玄). 毕玄是阿里巴巴技术保障部的研究员,负责性能容量架构.数据中心异地多活项目就是他主导的.多活:从同城到异地 InfoQ:首先请介绍一下数据中心异地多活这个项目. 毕玄:这个项目在我们内部的另外一个名字叫做单元化,双活是它的第二个阶段,多活是第三个阶段.所以我们把这个项目分成三年来实现.所谓异地多活,故名思义,就是在不同地点的数据中心起多个我们的交易

异地容灾备份-免费云灾备

数据备份 1.同城容灾 同城容灾是在同城或相近区域内(≤200KM)建立两个数据中心:一个为数据中心,负责日常生产运行;另一个为灾难备份中心,负责在灾难发生后的应用系统运行.同城灾难备份的数据中心与灾难备份中心的距离比较近,通信线路质量较好,比较容易实现数据的同步复制,保证高度的数据完整性和数据零丢失.同城灾难备份一般用于防范火灾.建筑物破坏.供电故障.计算机系统及人为破坏引起的灾难. 2.异地容灾 异地容灾主备中心之间的距离较远(>200KM),因此一般采用异步镜像,会有少量的数据丢失.异地灾

阿里云深圳数据中心正式开放

阿里云深圳数据中心正式开放 ? 8月29日,阿里云深圳数据中心正式开放运营,这是继杭州.青岛.北京.香港之后,我们在全球开放的第五个数据中心. 深圳数据中心主要辐射以深圳.广州为中心的华南区域,以满足这一区域内的商贸企业.政府科研机构.金融机构以及创业公司等各类用户对更加完美的弹性计算能力的需求.它依照7级抗震设计,8级抗震结构的标准进行建造:从变电站线路引入.UPS供电到每一台服务器都是双路供电,以实现数据中心的不间断供电运转:并确保24小时以上不间断供水,数据中心可用性达到99.995%以上

阿里云负载均衡升级:同城容灾进一步提升可用性

为了向广大SLB用户提供更加稳定可靠的负载均衡服务,近期阿里云对其SLB系统进行了升级,优先在杭州和青岛地域部署了同城容灾的本地高可用解决方案,下面就让我们一起来了解一下SLB同城容灾方案. 什么是同城容灾? SLB集群本身,已经实现了各种冗余,包括电力.网络.服务器等.我们单集群可以防止“单路电力故障”.“单边网络故障”.“服务硬件故障”.“系统意外宕机”甚至“整(一)个机柜突然掉电.突然断网.突然宕机”等故障对用户对外服务造成的影响. 但是更大范围的故障,比如整个数据中心不可用,已经不能从S

热备,冷备,云备的区别

转自:http://blog.csdn.net/hynet/article/details/48345495 很多人对热备,冷备,云备了解不深,我科普一下IT行业各种备份术语.以后别闹笑话了. 假设你是一位女性,你有一位男朋友,于此同时你和另外一位男生暧昧不清,比朋友 好,又不是恋人.你随时可以甩了现任男友,另外一位马上就能补上.这是冷备份. 假设你是一位女性,同时和两位男性在交往,两位都是你男朋友.并且他们还互不干涉,独立运行.这就是双机热备份. 假设你是一位女性,不安于男朋友给你的安全感.在

揭秘阿里投资200亿的张北数据中心

(上图为阿里张北数据中心二号园区) 还记得2015年的双11吧,那一天阿里天猫收获了912.17亿的销售额.那么,这912.17亿是上限么?肯定不是.相信很多人都有双11当天打不开网页或无法下单的经历,这主要是因为后台数据中心的处理瓶颈. (上图为阿里张北数据中心一号园区) 2016年9月12日,离今年双11还有两个月,阿里巴巴启用了张北数据中心一号.二号园区,这是阿里在张北规划的总计200亿云基地投资的一部分.阿里张北数据中心未来将成为阿里各项核心业务在北方最重要的基础设施.阿里巴巴CTO张建

阿里云发布国内首个大数据双活容灾服务

摘要: 在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测. 在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测.HDR-BD采用业界领先的数据双向实时复制技术,可以实现Hadoop集群双活和准0 R

备特佳容灾备份系统

-- 集数据库备份.文件备份.操作系统备份于一体的综合实时备份系统 针对Windows.Linux.Unix平台下的各类数据库.文件.操作系统进行智能备份的CDP灾备系统.具有实时备份.任意回退.业务接管.异地容灾.集中备份.异构备份.集中管理.中转备份.信息报警等功能. 支持全系列32位和64位的Windows操作系统(包括IA安腾系列的CPU):支持HP-UX.Saloris.AIX等Unix操作系统:支持Redhat.Redflag.SUSE.Ubuntu.中标麒麟等Linux系统:支持M

数据中心机房安装冷通道监控的必要性!

企业数据中心机房普遍面临设备发热密度高,电力能耗大.机房及机柜的空间不足等问题.为了满足数据中心机房不断上升的散热需求,解决机房内部局部热岛,冷空气与热空气直接混合,冷量的浪费大等问题.合理地使用冷通道监控方案,可大大提升数据中心的散热能力,充分有效地使用机柜和机房空间. 一.安装冷通道的原因 传统数据中心气流组织紊乱,冷热气窜流,精密空调冷气得不到有效利用,数据中心能耗居高不下.因冷区为敞开形式,冷空气并不是全部经过通信设备,不能有效地利用空调送出的冷量和风量,与通讯设备的发热量进行充分交换,