一、 影像系统高可用需求
某外资银行所用的影像认证系统需要24小时不间端对客户提供个人信息认证服务,对使用业务来说很重要,所以要求后台数据库服务器也能不间断的对外提供服务,而且要求对后台数据库能进行深层次的监视,防止僵死状态。针对银行用户对影像系统的高可靠性和容错能力,数据高安全性的要求,建议用户选择镜像HA解决方案,来实现系统中关键设备的双机容错,从而达到系统的高度可靠性和容错能力。嵌入了NEC EXPRESSCLUSTER X高可用集群产品,可以更加巩固企业管理和系统应用,保证企业实现精益企业概念,达到成本控制管理项目,提高供应链效率和性能高可靠性。
二、 解决方案
2.1方案描述
系统的高可用指的是应用系统整体的稳定性很高(包括整个硬件系统和软件系统),业务发生中断的可能性很低,从理论上讲,没有一个解决方案能够保证100%的业务不中断,只能是尽可能的提高系统的高可用性,系统的可用性越高需要的投资也越大,所以用户需要根据自己的实际情况,选择合适的解决方案。
本方案中采用EXPRESSCLUSTER镜像方式构筑集群系统,保护应用系统中后台的数据库服务器,实现镜像集群,达到高可用性。当任何一个应用发生故障时,再切换到待机的服务器上运行,保证业务24小时不间断地运行,同时保证数据安全可靠性,数据保存二份。
2.2系统结构示意图
NEC双机热备软件解决方案
2.3基本架构
? 两台应用服务器通过网络连接到网络交换机上,相互之间连接心跳线,进行实时探测系统状态。
? MSSQL2008数据库服务器,通过准备一台待机服务器通过集群软件构件成一个双机集群,提高系统高可用性。
? 集群软件对本地数据实时镜像,实现数据的一致性、完整性、可用性,为数据提供了又一层保护。
2.4系统说明
系统以Windows 2008 server操作系统为平台,系统应用中的MSSQL2008数据库服务器安装本地系统文件及集群软件,数据保存在本机上。
集群高可用工作模式:
集群系统中的MSSQL数据库服务器有二台,其中一台为待机服务器,进行热备,在这二台服务器上都需要安装NEC EXPRESSCLUSTER集群软件。其中一台服务器发生故障(故障包括IP地址,OS死机、MSSQL服务故障、硬件故障等)都将切换到待机服务器上。主机处理于Active,另外一台主机为热备援服务器处于Standby。通常情况下服务器均在运行,而备援服务器处于待机状态;当其中任一台应用服务器发生故障不能正常运转时,备援服务器接管主机的应用系统继续运行,保证系统能够不间断地运行。
2.4系统特点
? 硬件结合实现真正意义上的数据与系统分离。
? 对硬件配置要求不高,服务器可采用不同或相差较大的配置。
? 系统切换时间短,平均切换时间为20秒,为目前同类软件中*短。
? 切换过程对应用程序无影响,无需重新启动或登录。
? 系统效率高。因为整个系统中数据读写、管理及容错由磁盘阵列来完成。而系统从服务器故障纠错处理由集群软件来完成,而这两个都是相对独立的子系统。集群容错监控路径为10/100M自适应网卡线路,既不占用主机CPU资源也不占用基础网络带宽,因此系统效率高,这一点在实际的应用中得到用户的一致好评。
主要功能
自动侦测:
集群软件提供全方位的实时故障监视,可以监视网络、存储、服务器、操作系统、应用软件、集群软件自身服务状态、待机服务器上的软硬件资源的状态。
集群软件的网络心跳通过系统的内核空间进行,不受系统负荷的影响。除了支持网络心跳外,还可以通过COM口、存储设备上的特定分区、以及Ping第三方的方式确认服务器的状态。
除了对应用程序和服务进行常规级别的监视外(所谓常规级别的监视,即进程死活级别的监视),集群软件还提供了一系列监视选件产品,如Database Agent、Internet Server Agent、Application Server Agent、File Server Agent等,这些监视选件产品定期对应用程序进行实际的访问处理,探测应用的响应时间,返回结果等状态,从而实现对应用程序和服务的僵死状态(Stall)的监视,为用户的关键业务系统提供了更深层次的保护。集群软件的监视选件可以支持4个领域内的大部分主流应用,包括数据库服务器、互联网服务器、文件服务器和应用服务器等。
自动切换:
当侦测到任何一种硬件错误或服务器宕机等故障,集群立即执行自动切换功能,在极短时间内,将资源(如虚拟IP地址、数据库服务器、虚拟计算机名等等)和磁盘上的数据切换到待机上,并继续运行文件服务、数据库服务等。对于客户端来说这种接管过程是透明不可见的,感觉不到这种故障切换。确认正常运行业务后,故障恢复的过程就开始了,用户很快即会回到正常操作。
简单维护:
提供基于B/S结构的标准GUI用户界面,采用树状层级显示,集群架构清楚明了。基于Java的开发技术,支持远程管理与操作,可在统一的界面下,用统一的方式同时管理多个不同平台上的集群(Windows与Linux集群均可),在集群各个节点上可以看到同样详细的管理信息和管理功能。可以在日志视图中显示系统的详细信息,便于管理者及时发现集群的各种问题。在发生故障或进行切换时,系统可以自动向管理员发送故障通知邮件。这样极大的方便了系统管理员的操作和管理。
简便易用的集群配置工具:
提供集群构筑工具Cluster Builder,标准的GUI界面,操作简便易行,为管理员提供树状图显示集群全局,层次分明。通过预先配置集群的各种参数,当创建集群时只需在构成集群的一台服务器上读入集群的配置信息文件,其他的服务器便可自动获取集群信息并加入到该集群中,这样就可以同时完成多台服务器的设置,实现了平滑导入,大大方便了系统管理员的操作。系统将安装和配置操作分开,可以复制、备份、离线编辑配置文件,不论是联机或脱机状态,管理员都可以非常方便地修改集群配置信息,一旦发生故障需要更换服务器时,只需将配置文件导入即可迅速完成恢复。
优势
? 小停机时间,保护数据,保证业务724小时不间断运行
? 支持远程管理与操作系统,时间大大减少,其易操作的特点使维护费用减至*
? 对运行状态可建立在线记录文档配置
? 用户可自设定启动顺序,配置集群灵活,简单编辑操作,方便构筑集群
? 自动数据库启动顺序/引擎(Automatic database start-up procedure/Engine)
? 邮件通知故障警告,并支持声光报警
三、 客户评价
我们为×××的产品与解决方案,客户十分满意。×××看重的是产品的稳定和发生故障时的业务的不中端,及对产品和服务的质量。NEC EXPRESSCLUSTER很好的解决了客户的问题,赢得了客户的信任。
原文地址:http://blog.51cto.com/13812825/2135557