数据库高可用实战案例-------架构优化之清爽一夏

  说到高可用,看官们会想到很多方案,也许是自亲身经历过系统从单机变成高可用的痛苦过程,也许有的看官只是在自己的虚机上搭建过测试的玩具。今天本篇用我自己的真实经历给大家讲述,不管怎么样实战和测试玩耍还是很大的区别的!可能你觉得搭建一套高可用方案很简单,配置配置就OK了,但在真正的复杂系统中一切就没有那么轻松了!

  文章主要讲述升级并搭建AlwaysOn高可用的过程,以实施的思路为主。文中并没有搭建集群的步骤,搭建步骤请自行学习。

--------------博客地址---------------------------------------------------------------------------------------

原文地址: http://www.cnblogs.com/double-K/

如有转载请保留原文地址! 

 

废话不多说,直接开整-----------------------------------------------------------------------------------------

背景

  客户的现有方案是一套使用发布订阅构建的读写分离方案,总体来说系统构建的很不错。也是在SQL2012之前很常见的一套架构。

  架构图如下:

  

  

  客户的需求:SQL server 2008 R2 升级到SQL SERVER 2014 使用AlwaysOn 替换现有发布订阅架构。实现本地高可用、读写分离,异地灾备等,并应用部分2014的新功能,如内存优化表等提升系统性能和并发能力等。

前期调研

数据收集

  前期对系统的了解很重要!那么怎么样对系统有一个初步直观并且详细的了解呢?用脚本收集?这是时候就体现出工具的专业和协作价值。工欲善其事,必先利其器!

  

  

  

  

确定方案

  通过前期的需求分析,并对客户系统结构有了一个初步的了解后,我们用了将近一周的时间从架构的复杂度,易用性,客户程序改动程度,性能,稳定性等多个角度敲定了最终的方案。

  架构图如下:

  

  

  从原来那么复杂的架构变成如此清爽的架构,使用AlwaysOn取代复杂的发布订阅,使用AlwaysOn的只读节点实现读写分离,另外使用异地灾备节点取代原有的异地发布数据库,很不错吧!这也是用户最倾向的架构,因为复杂度低,相对稳定易于维护。这里要注意!凡事有利必有弊!要说“但是”了。

  但是,升级改动的成本大大提升!

  为什么这么说?我们接着看!

详细调研

  这样的一个复杂的系统前期的详细调研是需要很长时间的,几套系统不仅仅是架构上设计的比较复杂,功能应用、接口等更是复杂!下面是主要的一些梳理过程:

原有系统结构

  我们首先要对原有系统的设计有透彻的了解,客户在两地分别有一个数据中心,三套系统有大量的业务要使用其他系统的数据,所以这里使用发布订阅准时时的把其他系统中的数据发布到系统中的一个数据库,并使用同义词指向订阅来的数据。这种结构降低了使用链接服务器跨实例甚至跨机房访问的性能消耗!并且多份数据订阅到多个只读的节点,从而实现了报表、接口等业务的读写分离。

系统对象整理

  因为要做升级迁移,所以对象的整理是很重要的工作,业务对象的遗漏可能会带来不可挽回的灾难!甚至可能会导致整个升级,架构部署的回滚!几套系统中涉及的对象列表过于庞大,比如帐号几十个,几十个作业,上百个同义词,实例级触发器等等.....

服务器划分:

  • 主库对象
  • 读写分离各个只读库对象
  • 发布到其他业务系统的数据服务器配置对象
  • 其他应用程序对象

对象划分:

  • 数据库帐号
  • 链接服务器
  • 实例级触发器
  • 作业
  • 系统参数
  • 维护计划
  • cdc
  • BI相关
  • 同义词
  • 程序集
  • 邮件
  • 操作员
  • 只读库多出来的索引、视图等对象
  • 等等等

测试过程

搭建测试环境

  所有的升级、高可用项目测试环节都是必不可少的。首先是测方案配合业务的可行性,因为作为第三方公司不能对用户所有的应用关系,系统架构了如指掌,甚至客户方自己的工程师可能也做不到这一点。其次是测试功能在新环境下是否出现异常。还有就是对收集并迁移的系统对象进行一次查缺补漏。这样也可以尽量保证系统上线时发生故障的概率!

  测试环境无疑是任何升级、架构变更的必要步骤,也只有经过充分的测试才能做到心中有数,进而实现零故障上线。

上线演练

  上线演练?这是个什么东西?

  首先数据库的操作一定要确定可实施的时间窗口!保证在固定的时间窗口完成工作很重要,那么这就是上线演练的最大好处,我们使用准备出的新机器完全模拟上线的全部步骤,并记录每个步骤使用的时间,可能出现的风险,最迟的完成时间等等。其次搭建完成后我们可以用这个环境(就是完成后正式环境的配置)进行压力测试。

  上线演练是一个很必要的步骤,但这个步骤要视实际的情况而定,比如升级的方式,环境的配置等。在这样的一个项目中我们做了两轮的上线演练!

实施过程

制定性能基线

  这样一个大的变动,数据库在各个阶段的性能指标是什么样子的呢? 这里我们依然使用 Expert for SQL Server 工具对每一个阶段实施前后性能进行对比,这样不仅能对实施的影响进行监控,更能清晰地分析出每个实施阶段对性能的影响!

  

  

对每个指标也都做相应的对比分析,指标比较多这里不一一介绍了,请参见优化系列文章:

SQL SERVER全面优化-------Expert for SQL Server 诊断系列

性能优化

  这里的性能优化,我们主要针对语句系统的一些常规参数、慢语句进行第一轮的优化!另外一个重点就是为了应对升级到2014后可能变慢的语句进行调整!具体什么样的语句可能变慢? 这个...

  • 系统的重点语句(执行最频繁的)
  • 语句复杂的
  • 大面积测试吧.....哈哈哈

  这里为什么要在升级前就作这样的优化工作而不是升级后系统运行时在针对慢的语句进行分析呢? 这个道理很简单,如果上线了才发现如果变慢的功能很多,或变慢的是频繁的功能那么上线的效果就是俩个字"失败"。虽然有的看官知道可以使用t提示或降低兼容级别解决这个问题,但是这只是特殊场景下的极端手段,而并不是解决的根本。所以建议如果你有升级到2014的需要,那么这样的优化手段一定要提前做!

升级到2014

  升级数据库完全可以写成好几篇博客,甚至写本小书都可以了!这里只做简单介绍,和一些要重点注意的问题!

  升级方式

  升级方式有2种:in place 和side by side,这里采用的是side by side! 通俗地说就是准备新的服务器,安装对应版本的数据库,然后把数据还原上去。side by side的好处就是升级不会影响原有的环境,即使失败也能修改程序指向回退到原环境!

  

  升级2014 最大的一个问题

  2014 的新特性 “参数估计” !这个让人兴奋又苦恼的新功能会导致很多语句在升级到2014 后变慢,因为前面的优化阶段已经对这部分重点关注了,所以这部分的问题基本已经消灭!但是万恶的分区表(200多个分区)依然导致了批处理的性能严重问题!

集群搭建

  集群搭建可能没有过多的可说支出,正常创建故障转移集群,搭建AlwaysOn等,但这其中的细节还是很多的,比如仲裁的方式?异地节点的虚拟IP设置?节点个数与业务的配合?等等等的问题,这里也就不一一细说了。

程序修改

  这个架构的修改也必然导致程序上的变化,这也是前文中提到的为什么客户最倾向的架构,因为复杂度低而使成本大大提升。原始系统中的关联性无法通过发布订阅实现本地化访问,又不能使用性能非常差的链接服务器。那么路只有一条,那就是修改程序访问方式,简单理解为在程序中分别在各自的数据库中查出相应的数据,然后通过程序在内存中操作处理。

细节问题处理

  总体的实施步骤可以说就是这样了,但是在这个整体步骤中充斥着无数的细节,每一个细节可能都决定着方案的可行性,升级、架构变更的成败。限于篇幅这里只举几个可能常见的问题说明一下!

  • CDC功能与AlwaysOn:官方文档上说CDC与AlwaysOn可以实现转移后CDC不间断,但是经过测试CDC作业在AlwaysOn切换后多次执行失败则不会再一次自动运行,CDC的logreader和发布订阅时一样的,但在没有发布订阅存在的情况下只有CDC作业会出现上述问题。解决办法:配置调控作业(切点切换作业控制)
  • 重建索引操作:由于配置异地节点。日志重建变成问题,测试中重建索引的日志量是单机下日志量的好几倍!这样会导致异地日志队列过长。解决办法:使用手工脚本拆分细化索引重建,根据队列大小和传输速率控制每天的日志量。
  • 2014下语句变慢:具体就不细说了,2014参数估计和200+分区表组合产生的语句变慢问题至今没有答案。目前只是使用一些方法避免了这个问题!(这个问题也请遇到的朋友给些思路,谢谢)
  • 只读副本上有写操作:由于一些报表操作使用中间临时表,这里临时表不是#temp 这种而是真正的物理表作为临时表。解决方案:修改为临时表,或创建单独数据库(不在可用性组中),在使用同义词指向新库实现写操作。

  遇到的问题真的是各种多,这也是为什么说当你的常规技术手段都掌握的时候,踩过的坑就是你的成长了!

--------------博客地址---------------------------------------------------------------------------------------

原文地址: http://www.cnblogs.com/double-K/

如有转载请保留原文地址! 

-----------------------------------------------------------------------------------------------------

  总结 : 文章只是简单分享了一个较为复杂的08到14的升级并搭建高可用的工作,真正的实战项目和自己搭建的测试系统还是有很大的差别。项目整个工期持续了3个月,所以本文只是简单的说明思路和步骤,另外介绍了几个常见的大坑。项目中的主要步骤,个人认为这也是在数据库高可用方案搭建过程中的必要步骤:

  1. 系统背景调查
  2. 业务调研,生成初版方案
  3. 详细调研,对象整理
  4. 测试环境搭建
  5. 系统测试,确定方案
  6. 上线演练,确定时间窗口
  7. 压力测试
  8. 正式上线
  9. 上线后监控
  10. 解决问题,制定维护方案

 

   此项目可以说是比较严格的遵循了相关管理的标准,在三个月的实施中,我们秉承这“稳定大于效率”的思想,工作细化到每一步,每一步都有详细的说明,最终保证了三套系统的上线运行零故障!

  

 文章用到的 Expert FOR SQLSERVER 工具下载链接:http://zhuancloud.com/UserAccount/Install

----------------------------------------------------------------------------------------------------

注:此文章为原创,欢迎转载,请在文章页面明显位置给出此文链接!
若您觉得这篇文章还不错请点击下右下角的推荐,非常感谢!

时间: 2024-11-20 16:55:39

数据库高可用实战案例-------架构优化之清爽一夏的相关文章

数据库高可用架构 转载

数据库高可用架构对于我们这些应用端开发的人来说是一个比较陌生的领域,是在具体的数据库产品之上搭建的环境,需要像DBA这样对数据库产品有足够的了解才能有所涉及,虽然不能深入其中,但可以通过一些经典的高可用架构学习其中的思想.就我所了解到的有以下几种: MySQL Replication MySQL Cluster Oracle RAC IBM HACMP Oracle ASM MySQL Replication MySQL Replication就是通过异步复制多个copy以达到提高可用性的目的,

美团点评数据库高可用架构的演进与设想

本文介绍最近几年美团点评MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新.同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望. MMM 在2015年之前,美团点评(点评侧)长期使用MMM(Master-Master replication manager for MySQL)做数据库高可用,积累了比较多的经验,也踩了不少坑,可以说MMM在公司数据库高速发展过程中起到了很大的作用. MMM的架构如下. 如上所示,整个MySQL集群提

mysql数据库高可用架构-----MHA-0.56的详解

大家都知道,任何线上环境,都必须搭载高可用架构,是web的,也要是数据库的,严格来说更是整个架构的高可用. mysql作为时下比较热的数据库,高可用架构更加需求大.不过,以前老旧那一套已经不合时宜,现在用的比较多的就是MHA和PXC了. PXC的优势是做到同写同回滚,达到数据高度一致性,通过一些程序和代码来做第三方分发,可以做到一定程度的读写分离,是个相当不错的高可用解决方案,不过对网络要求比较高,配置也略复杂一些,最好是同一个机房里面做,不过这并不是本文重点,后面找时间再写相关的文章. 本文要

高可用负载均衡架构(1)

高可用负载均衡架构 1     前言 1.1  LVS介绍 LVS是Linux Virtual Server的简写,意即Linux虚拟服务器,是一个虚拟的服务器集群系统.本项目在1998年5月由章文嵩博士成立,是中国国内最早出现的自由软件项目之一.目前有三种IP负载均衡技术(VS/NAT.VS/TUN和VS/DR),十种调度算法(rrr|wrr|lc|wlc|lblc|lblcr|dh|sh|sed|nq): 1.1.1     静态调度 ①rr(Round Robin):轮询调度,轮叫调度 轮

企业主流MySQL高可用集群架构三部曲之PXC

前段时间,老张给大家介绍了企业中主流MySQL高可用集群架构三部曲中的前两部,有不了解的同学可以去访问我之前的博客内容. 第一部曲直通车>> 企业中MySQL主流高可用架构实战三部曲之MHA 第二部曲直通车>>企业中MySQL高可用集群架构三部曲之MM+keepalived 独家新课程上线>>MySQL体系结构深入剖析及实战DBA视频课程 今儿给大家介绍最后一部曲,是percona公司的percona xtraDB cluster.简称PXC.它是基于GaLera协议的

(转)Oracle与DB2在数据库高可用技术上的相同与差异探讨

原文:http://www.talkwithtrend.com/Article/178339 数据库建设过程中,高可用是每一个企业数据中心数据库建设过程中至关重要的一个关注点,直接关系到业务连续性和稳定性.要想将这个工作做好,我们必须从其底层原理.机制.架构等方面进行深入了解,深入分析,深入对比才能知道我们应该如何去实践.下面的几个关键点,不仅仅是每一个DBA应该琢磨的事情,同时也是搞企业IT架构规划和建设的人必须了解和知道的事情. 下面总结了一些Oracle与DB2在数据库高可用技术上的相同与

MongoDB 高可用集群架构简介

在大数据的时代,传统的关系型数据库要能更高的服务必须要解决高并发读写.海量数据高效存储.高可扩展性和高可用性这些难题.不过就是因为这些问题Nosql诞生了. 转载自严澜的博文--<如何搭建高效的MongoDB集群> NOSQL有这些优势: 大数据量,可以通过廉价服务器存储大量的数据,轻松摆脱传统mysql单表存储量级限制. 高扩展性,Nosql去掉了关系数据库的关系型特性,很容易横向扩展,摆脱了以往老是纵向扩展的诟病. 高性能,Nosql通过简单的key-value方式获取数据,非常快速.还有

Pacemaker+ISCSI 实现Apache高可用实战

Pacemaker 1.1 概述 pacemaker(直译:心脏起搏器),是一个群集资源管理器.它实现最大可用性群集服务(亦称资源管理)的节点和资源级故障检测和恢复使用您的首选集群基础设施(OpenAIS的或Heaerbeat)提供的消息和成员能力. Pacemaker 承担集群资源管理者(CRM - Cluster Resource Manager)的角色,它是一款开源的高可用资源管理软件,适合各种大小集群.Pacemaker 由 Novell 支持,SLES HAE 就是用 Pacemake

数据库高可用方案

数据库高可用方案 低读低写并发.低数据量方案 方案一:双机高可用方案 1.数据库架构图 2.特点 一台机器A作为读写库,另一台B作为备份库:A库故障后B库作为读写库:A库恢复后A作为备库. 3.开发说明 此种情况下,数据源配置中的数据库IP地址,可采用虚拟的IP地址.虚拟IP地址由两台数据库机器上的keepalive配置,并互相检测心跳.当其中一台故障后,虚拟IP地址会自动漂移到另外一台正常的库上. 数据库的主备配置.故障排除和数据补全,需要DBA和运维人员来维护.而程序代码或配置并不需要修改.