转帖:数据库集群技术漫谈

数据库集群技术漫谈

原帖:http://www.cnblogs.com/CareySon/p/3627594.html

简介


当今世界是一个信息化的世界,我们的生活中无论是生活、工作、学习都离不开信息系统的支撑。而信息系统的背后用于保存和处理最终结果的地方就是数据库。因此数据库系统就变得尤为重要,这意味着如果数据库如果面临问题,则意味着整个应用系统也会面临挑战,从而带来严重的损失和后果。

如今“大数据”这个词已经变得非常流行,虽然这个概念如何落地不得而知。但可以确定的是,随着物联网、移动应用的兴起,数据量相比过去会有几何级的提升,因此数据库所需要解决的问题不再仅仅是记录程序正确的处理结果,还需要解决如下挑战:

  • 当数据库性能遇到问题时,是否能够横向扩展,通过添加服务器的方式达到更高的吞吐量,从而充分利用现有的硬件实现更好的投资回报率。

  • 是否拥有实时同步的副本,当数据库面临灾难时,可以短时间内通过故障转移的方式保证数据库的可用性。此外,当数据丢失或损坏时,能否通过所谓的实时副本(热备)实现数据的零损失。

  • 数据库的横向扩展是否对应用程序透明,如果数据库的横向扩展需要应用程序端进行大量修改,则所带来的后果不仅仅是高昂的开发成本,同时也会带来很多潜在和非潜在的风险。

面对上述挑战一个显而易见的办法是将多个服务器组成一组集群,这样一来就可以充分利用每一台服务器的资源并将客户端负载分发到不同服务器上,随着应用程序负载的增加,只需要将新的服务器添加到集群即可。

本篇文章将对集群的概念、形式以及目前主流的数据库集群技术进行探讨。

数据库集群的形式


数据库的集群和扩展不像应用程序扩展那样容易,因为从数据库端来说,一旦涉及到了集群,往往会涉及到数据库层面的同步,因此从是否存在数据冗余这个角度来讲,我们可以从大面上把数据库集群分为以下两种形式:

Share-Disk架构

Share-Disk架构是通过多个服务器节点共享一个存储来实现数据库集群,两台机器最简单的Share-Disk架构如图1所示。

图1.简单的Share-Disk架构

在此基础之上,Share-Disk架构又分为单活和双活,双活即为集群中的每一个节点都可以同时对外提供服务,而单活为集群中只有一个节点可对外提供服务,集群中的其他服务器作为冗余在“活”的节点出现故障时接替该服务器成为对外提供服务的节点。该类架构最典型的产品就是SQL
Server Failover Cluster(SQL Server故障转移集群)、NEC的EXPRESSCLUSTER、ROSE的ROSE
HA。这种方式的弊端也是显而易见的,如下:

  • 硬件资源的严重浪费,同一时间集群中只有一台服务器活着,其他服务器只能作为冗余服务器。

  • 集群无法提升性能,因为只有一台服务器可用

  • 存储方面存在单点故障,除非在存储层级保证高可用,通常需要昂贵的SAN存储。

因此该类方案仅仅可以做到服务器层面的高可用,无法带来性能的提升,也无法解决存储单点故障的问题。因此如果不搭配其他高可用或负载均衡的技术,存在的意义并不是很大。

另一类技术是Share-Disk中的双活的技术,与单活技术不同的是,双活的技术虽然也是共享磁盘,但集群中的所有节点都可以对外提供服务,典型的产品就是Oracle的RAC。RAC的技术性非常的高,因此需要水平比较高的人来运维系统。RAC设计的初衷并不是为了性能,而是为了高可用和可扩展性,如果应用程序不是针对RAC架构设计和开发的,则将应用程序迁移到RAC上由于block
contention (block busy waits)可能会导致性能的急剧下降,并且节点越多性能下降越明显。

Share-Nothing架构

Share-Nothing架构又分为两种,首先是分布式架构。将数据库中的数据按照某一标准分布到多台机器中,查询或插入时按照条件查询或插入对应的分区。

另一种是每一个节点完全独立,节点之间通过网络连接,通常是通过光钎等专用网络。如图2所示。

图2.Share-Nothing冗余架构

在Share-Nothing架构中,每一个节点都拥有自己的内存和存储,都保留数据的完整副本。通常来说,又可以分为两种,可以负载均衡和不可以负载均衡。

首先谈谈不可负载均衡的集群,在不可负载均衡的技术中,集群中的节点会被分为主节点和辅助节点,主节点向外提供服务,辅助节点作为热备(二阶段事务提交)或暖备(不需要保证事务同步),同时有可能使得辅助节点提供只读的服务。使用这个架构的技术包括:SQL
Server AlwaysOn,SQL Server Mirror,Oracle Data Guard这种架构带来的好处包括:

  • 辅助节点数据和主节点保持同步或准同步,当搭配第三方仲裁后,可以实现自动的故障转移,从而实现了高可用

  • 辅助节点由于和主节点完全独立且数据同步或准同步,因此主节点出现数据损坏后,可以从辅助节点恢复数据(自动或手动)

  • 由于Share-Nothing架构使用了本地存储(或SAN),相较于Share-Disk架构在慢速网络时有非常大的性能优势

当然,弊端也显而易见,因为辅助节点无法对外提供服务或只能提供只读服务,因此该类集群的弊端包括:

  • 扩展能力非常有限

  • 对性能没有提升,因为涉及到各节点的数据同步,甚至带来性能的下降

  • 辅助节点如果可读,虽然提升性能,但需要修改前端应用程序,对应用程序不透明

另一类Share-Nothing架构中,是允许负载均衡的。所谓负载均衡就是就是将对数据库的负载分布到集群中的多个节点上,在集群中的每一个节点都可以对外提供服务,从而达到更高的吞吐量,更好的资源利用率和更低的响应时间。前端通过代理进行调度。使用该类架构的技术包括:MySQL上的Amoeba(架构如图3,摘自MySQL大师陈畅亮的博客:http://www.cnblogs.com/gaizai/archive/2012/06/12/2546755.html),MySQL上的HA
Proxy(如图4所示),格瑞趋势(www.grqsh.com)在SQL
Server上的Moebius集群(如图5所示)。

图3.Amoeba

图4.HA Proxy

图5.Moebius集群

可负载均衡的Share-Nothing架构的好处是每台服务器都能提供服务,能充分利用现有资源,达到更高的吞吐量。其中Amoeba中可能会涉及到数据分片,数据分片的好处是对于海量数据的处理更加高效,但同时也引入了其他问题,比如说需要应用程序端对应数据分片进行调整、跨分片节点查询的处理问题、每一个数据分片节点是否能够承受各自业务负载的高峰问题等。该类架构需要实施的人员水平比较高,且需要应用层面做调整,因此更适合于互联网企业。

另一类不涉及到数据分片的架构,比如一类可以使用组合方案,比如说Oracle
RAC+F5。另一类是使用单个厂商提供的方案,比如说SQL
Server上的Moebius。这类方案集群中的每个节点都会对外提供服务,因此有如下好处:

  • 由于每一个节点都可以对外提供服务,因此可以提升性能

  • 扩展性得到提升,可以通过向集群添加节点直接进行Scale-Out扩充

  • 由于前端应用通过代理连接到集群,而集群中的每一个节点都保持完整的数据集,因此不存在分片不到位反而造成性能下降的问题,因此对应用程序端完全透明

但相比较于MySQL的数据分片,该类方案的弊端也显而易见,因为每一个节点都需要完整的数据集,因此需要占用更多的存储空间。

小结


本文从一个比较高的层面谈到了数据库集群技术。从数据库应用层面的Share-Disk集群直到集群的最高形式-能够提供负载均衡的集群,并列举了一些主流的商用产品。集群的存在意义是为了保证高可用、数据安全、扩展性以及负载均衡。如果现在的集群产品不能包含这几个特性,而业务场景也需要,也可以将和一些现有的技术结合来实现,但毕竟不是每一个人都是数据库专家,即使给你一堆工具和材料你也做不出来iPhone,因此在系统设计之初就对数据库方面的方案有所考虑会免去很多麻烦。

时间: 2024-08-25 12:55:45

转帖:数据库集群技术漫谈的相关文章

数据库集群技术漫谈

转自:http://www.51testing.com/html/69/n-867469-2.html 简介 当今世界是一个信息化的世界,我们的生活中无论是生活.工作.学习都离不开信息系统的支撑.而信息系统的背后用于保存和处理最终结果的地方就是数据库.因此数据库系统就变得尤为重要,这意味着如果数据库如果面临问题,则意味着整个应用系统也会面临挑战,从而带来严重的损失和后果. 如今“大数据”这个词已经变得非常流行,虽然这个概念如何落地不得而知.但可以确定的是,随着物联网.移动应用的兴起,数据量相比过

数据库集群技术 -摘自网络

简介 当今世界是一个信息化的世界,我们的生活中无论是生活.工作.学习都离不开信息系统的支撑.而信息系统的背后用于保存和处理最终结果的地方就是数据库.因此数据库系统就变得尤为重要,这意味着如果数据库如果面临问题,则意味着整个应用系统也会面临挑战,从而带来严重的损失和后果. 如今“大数据”这个词已经变得非常流行,虽然这个概念如何落地不得而知.但可以确定的是,随着物联网.移动应用的兴起,数据量相比过去会有几何级的提升,因此数据库所需要解决的问题不再仅仅是记录程序正确的处理结果,还需要解决如下挑战: 当

数据库集群技术的现状

现状集群已不是什么新技术了,各个数据库厂商也都有了自己的成熟解决方案,目前数据库集群系统应用得比较成功,应用范围比较广泛的是:Oracle公司的Oracle9与IBM公司DB2.Oracle9采用Shared-storage的技术,DB2选择了Shared-nothing的技术,二者各有长短. 最新的数据库集群系统的理论基础是分布式计算,将数据分布到每个节点,所有的计算节点并行处理数据,将结果汇总.这样的方式无疑是最完美的.但是目前仍然不能实现全部的功能. Oracle 目前集群方案为RAC,全

关于大型高并发网站架构以及数据库集群的一些问题

2014年6月11日,正在办理离职交接过程中,对未来的职业规划陷入了一些困境,想要专门从事管理工作,但是在任职期间所执行的管理工作仅仅属于team leader级别的,离项目经理感觉能力还有差距.对技术方面,总是有着难以克制的热情,多年的企业应用开发,锻炼了将需求转化为程序逻辑的能力.可对当下比较吃香的大型网站架构以及数据库集群技术,接触甚少.这也让我一直心有芥蒂,总想向着这个方向去探索.我想,如果想要成为一个好的架构师,这些事情如果不接触,你都不好意思跟人说你会做系统架构吧. IT给人的感觉就

分布式数据库集群中间件

我是一个分布式数据库集群中间件的开发人员,已经一年多一点的开发时间了,今天总结点我所知道的一些事情,给有新近来到这个领域的研发人员一点借鉴. 生活不易,赚钱不易,离开仅仅是为多赚点钱. ----学渣 我仅仅是说我所开发过的系统: 后面文章会有具体的分析.这里仅仅做简单的梳理.也就是你要研发分布式数据库集群中间件.须要向着哪些方面去思考. 首先我们从名字去分析我们正在从事的工作内容: 1. 分布式 须要考虑它的方向(后面具体说明) a)  分布式中的概念 b)  分布式的模型 c)  分布式系统特

Oracle数据库集群入门培训教程_Oracle RAC集群体系架构解析

课程目标 风哥本课程讲解Oracle数据库基础入门培训教程之Oracle RAC集群体系架构,内容包括:集群基本概念.Oracle RAC集群架构.Oracle RAC集群相关术语.Oracle RAC集群相关进程.Oracle RAC集群技术不同版本的变化 适用人群 IT相关从业人员,Oracle dba,在校大学生 课程简介 风哥本课程讲解Oracle数据库基础入门培训教程之Oracle RAC集群体系架构,内容包括: 一.本课内容 01.Oracle集群有哪几种 02.Oracle集群基本

集群技术的出现和IA架构服务器的快速发展为社会的需求提供了新的选择

集群技术的出现和IA架构服务器的快速发展为社会的需求提供了新的选择.它价格低廉,易于使用和维护,而且采用集群技术可以构造超级计算机,其超强的处理能力可以取代价格昂贵的中大型机,为行业的高端应用开辟了新的方向. 集群技术是一种相对较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能.可靠性.灵活性方面的相对较高的收益. 目前,在世界各地正在运行的超级计算机中,有许多都是采用集群技术来实现的. 集群是由一些互相连接在一起的计算机构成的一个并行或分布式系统.这些计算机一起工作并运行一系列共同

java集群技术(转)

序言 越来越多的关键应用运行在J2EE(Java 2, Enterprise Edition)中,这些诸如银行系统和账单处理系统需要高的可用性(High Availability, HA),同时像Google和Yahoo这种大系统需要大的伸缩性.高可用性和伸缩性在今天高速增长的互连接的世界的重要性已经证实了.eBay于 1999年6月停机22小时的事故,中断了约230万的拍卖,使eBay的股票下降了9.2个百分点. J2EE集群是用来提供高可用性和伸缩性服务,同时支持容错处理的一种流行的技术.但

数据库集群之路一

最近把前端angular开发框架搭建好了,比较顺利的解决了框架,三方库,jquery以及jquery插件库的依赖和使用.对框架内部实现了控件封装,形如分页控件,排版控件,选择器控件,下拉选择控件,再到表单生命周期,动态创建组件,页面路由,模块整理,路由守卫,http拦截,sso,文件上传,过场动画等等各个节点实现了,基本完全满足现有需求功能开发,我想后面对于前端来说也就是图表,gis,websocket一类的应用结合了. 关于后端,对于一个分布式管理系统来说无外乎就是sso统一授权,webapi