一 网络规划
拓扑图就不上了,直接上IP划分
主机1
public eth0 rhcs1.public.example.com 192.168.0.1
private eth1 rhcs1.private.example.com 10.10.10.1
storage eth2 rhcs1.storage.example.com 192.168.1.101
主机2
public eth0 rhcs2.public.example.com 192.168.0.2
private eth1 rhcs2.private.example.com 10.10.10.2
storage eth2 rhcs2.storage.example.com 192.168.1.102
存储服务器
192.168.1.254
二 集群
1 什么是集群
集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。
2 集群的分类
负载均衡集群(Load-Balancing clusters)
负载均衡集群为企业需求提供了更实用的系统。负载均衡集群使负载可以在计算机集群中尽可能平均地分摊处理。负载通常包括应用程序处理负载和网络流量负载。这样的系统非常适合向使用同一组应用程序的大量用户提供服务。每个节点都可以承担一定的处理负载,并且可以实现处理负载在节点之间的动态分配,以实现负载均衡。对于网络流量负载,当网络服务程序接受了高入网流量,以致无法迅速处理,这时,网络流量就会发送给在其它节点上运行的网络服务程序。同时,还可以根据每个节点上不同的可用资源或网络的特殊环境来进行优化。
与科学计算集群一样,负载均衡集群也在多节点之间分发计算处理负载。它们之间的最大区别在于缺少跨节点运行的单并行程序。大多数情况下,负载均衡集群中的每个节点都是运行单独软件的独立系统。
如piranha、Add-on、roand-robin DNS、Keepalived、LVS、heartbeat,有的既可以实现负载均衡又可以实现高可用功能。
高可用集群(High-Availability clusters)
当集群中的一个系统发生故障时,集群软件迅速做出反应,将该系统的任务分配到集群中其它正在工作的系统上执行。考虑到计算机硬件和软件的易错性,高可用性集群的主要目的是为了使集群的整体服务尽可能可用。如果高可用性集群中的主节点发生了故障,那么这段时间内将由次节点代替它。次节点通常是主节点的镜像。当它代替主节点时,它可以完全接管其身份,因此使系统环境对于用户是一致的。
高可用性集群使服务器系统的运行速度和响应速度尽可能快。它们经常利用在多台机器上运行的冗余节点和服务,用来相互跟踪。如果某个节点失败,它的替补者将在几秒钟或更短时间内接管它的职责。因此,对于用户而言,集群永远不会停机。
高性能计算集群(Compute clusters)
科学集群是并行计算的基础。通常,科学集群涉及为集群开发的并行应用程序,以解决复杂的科学问题。科学集群对外就好像一个超级计算机,这种超级计算机内部由十至上万个独立处理器组成,并且在公共消息传递层上进行通信以运行并行应用程序。
3 双机热备
3.1 概念
从广义上讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。
双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中,可能会出现多台服务器的情况,即服务器集群。双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器。
从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。
3.2 双机热备作用
服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。
而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。
决定是否使用双机热备,正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。
在考虑双机热备时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切换过程可能是一分钟左右。在切换过程中,服务是有可能短时间中断的。但是,当切换完成后,服务将正常恢复。因此,双机热备不是无缝、不中断的,但它能够保证在出现系统故障时,能够很快恢复正常的服务,业务不致受到影响。而如果没有双机热备,则一旦出现服务器故障,可能会出现几个小时的服务中断,对业务的影响就可能会很严重。
另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备,同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。
3.3 常见产品
PCL HA集群软件:Linux和Solaris平台下集群的可靠选择,支持多点集群及双机;远程监控
PrimeCluster_HA特点及优势
HA 服务器——应用与服务随时可用
PRIMECLUSTER拥有近20年的历史,它随着富士通西门子计算机公司在全球的业务开展,遍布各个行业和领域,在欧洲、中东、非洲和亚洲有着大量的成功案例。
支持多平台――PRIMECLUSTER支持Linux/Intel和Solaris/Sparc平台。它在用户层面保持界面、操作方法、管理命令的统一,和OS,硬件平台无关。
高效、冗余的集群心跳协议――PRIMECLUSTER可拥有多达8条心跳线路;采用自有的ICF(Internode Communication Facility)协议取代低效的IP协议
保护数据完整性――独有的Shutdown Facility机制,确保在集群脑裂(Brain-Split)的情况下用户数据的完整性,最完美的解决方案。严谨的Online、Offline检查机制,确保应用只可能在一个节点上启动。
灵活的配置方案――HA模式最大支持8个节点,支持1:1、N+1、N:M配置模式,多节点多应用可在集群内灵活配置。
单一管理图形界面――PRIMECLUSTER采用基于浏览器的Java管理界面,可在单一节点上远程管理集群内所有节点。
向导化的配置工具――PCS配置工具能够自动生成资源树,简化配置步骤,自动检查配置的一致性和生成配置文件信息。能够自动识别某些资源,如卷管理器、SAN网络和NAS。对于Oracle、DB2、WebServer、SAP等应用拥有Turn Key解决方案
滚动升级――PRIMECLUSTER支持版本异构(甚至OS异构),从而支持滚动升级,最小限度减少停机时间。
动态配置――HA和负载均衡模式均支持动态配置,可以在不停止应用的情况下对配置进行修改并生效。
LanderCluster集群软件:支持多点集群及双机;远程监控;支持SCO Unix
LanderCluster产品概述
LanderCluster For Windows2000 是一个高可用集群软件包,目前支持的操作系统为Windows2000、Windows2003、Linux、SCO OpenServer/UnixWare7 等环境。
在该系统中,每台主机运行各自的应用系统,用户数据存放在共享存储子系统上。LanderCluster 的守护进程通过 EtherNet 监测整个集群的运行状态。由 PC 服务器、共享磁盘阵列子系统和LanderCluster集群软件包组成一个有效的高可用集群系统。
LanderCluster系列产品分为LanderCluster-DN和LanderCluster-MN:
* LanderCluster-DN双机高可用产品:是LanderCluster集群产品系列中的主流产品。支持Windows/Linux/SCO Unix等操作系统平台,具有稳定可靠、易于管理、开放性强、性价比高的特点,同时支持多语种、支持远程管理等功能,是您构建高可用环境的必要选择。
* LanderCluster-MN多节点集群产品:是LanderCluster集群产品系列中的旗舰产品。支持两个以上节点的集群环境,支持Windows Server/Linux/SCO Unix等操作系统平台,具有稳定可靠、易于管理、备援方式灵活多样、节点和任务的伸缩性强、保护用户投资、整合和优化用户系统环境、支持包括ISCSI存储环境等特点。该产品能够支持八个以上节点的集群环境。
LifeKeeper集群软件:支持多点集群及双机
LifeKeeper软件介绍
美国SteelEye公司的LifeKeeper 是一种支持多种软(WindowNT, Windows2000, 多种Linux等)、硬件平台的高性能容错软件,最多可支持16台服务器集群。Lifekeeper软件源于美国NCR公司及著名的AT&T贝尔实验室。为企业、银行、政府等的信息服务,商务服务,政务服务等提供高可用性解决方案。
LifeKeeper属于高可用容错集群软件,运行于NT、Windows 2000、Linux和NCR Unix平台。同时支持纯软件镜像方式和共享磁盘阵列柜方式,并支持远程灾难实时复制备份恢复系统。使用户的服务器、操作系统、数据库系统以及关键的数据及应用程序保持7天×24小时连续不间断,提供99.99%的高可用性。软件包括核心部分和一些针对不同应用的ARK。
LifeKeeper的关键特点
1.不用增加任何额外硬件投资,纯软件方式实现双机容错,且对备机无硬件配置要求。
2.可支持Notes、Exchange、SQL Server、Sybase、Informix、Oracle 、SAP等多种系统的应用层热恢复。
3.是全球第一套基于NT操作系统的容错软件并同时支持LINUX平台。支持远程灾难备份。
4.支持共享磁盘阵列柜和扩展镜像两种方式,给用户提供了选择上的灵活性,同时也能适应各种机型、网络结构、软件平台及应用系统。
5.LifeKeeper在扩展镜像或共享磁盘阵列任意方式下,均能实现两台服务器各自运行不同应用且相互热备份,即实现双Active运转模式。
6.使用共享磁盘阵列柜方式时,最多可以支持16个节点,远远大于其它类似系统所支持的2个节点数。
7.最大限度地保护用户端的应用连续性。用户的硬件资源(如网卡),软件资源(如NT操作系统、数据库管理系统、数据库应用系统、电子邮件系统等)均能处于LifeKeeper的保护之下,当这些被保护资源出现技术故障时,LifeKeeper可随时实施系统资源切换。如此,LifeKeeper真正实现了用户硬件或是软件资源发生故障时系统及应用层上的在线热切换。
8.LifeKeeper占用系统资源极少,不增加网络负荷,且不打扰任何具体应用系统的任何操作。
9.LifeKeeper真正实现无人值守,全自动地实现应用资源切换,且图形界面操作,简单方便。
10.自投入使用以来,已经历了大量交易高峰的实际考验,其执行效率很高且运行十分稳定可靠,全球市场占有率第一。
RoseHA双机软件:双机热备、互备
RoseHA双机热备软件概述
在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系统是单网或是双网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路接入不同用户有不同的需求,而要求有不同的切换模式,所以选择不同的切换模式,可以使用户端的改变达到最少的程度。
ROSEHA根据不同的行业及各行业不同的需求设计多种备援模式以弹性的调适用户的最佳组合及选择。
* ROSEHA系统运作方式
在正常的运作情形之下,主机之间透过冗余侦测线路互相侦测,当任一主机有错误产生时,ROSE HA提供严谨的判断与分析,确认主机出错之后,才完全启动备援接管动作。
支持各种操作系统平台,包括Windows NT/2000/2003、SCO Openserver/Unixware、Linux、Solaris等。
RoseHA支持各种数据库:MS-SQL、Oracle 、Informix、Sybase、Lotus/Nose、DB2等
接管动作包括
* 文件系统( File System)
* 数据库( Database)
* 网络地址( IP Address)
* 应用程序(AP)
* 系统环境(OS)
4 双机互备
是在双机热备基础上,两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性。也就是主机和备机运行于不同的应用,主机与备机互为备份。
双机互备实际上是双机热备的一种应用,它避免了两个应用使用四台服务器分别实现双机热备。但对服务器的性能要求比较高,配置相对要好。但双机互备存在着性能瓶颈,即如果进行切换后,在一台服务器上就有同时运行两个应用,有可能负载过大。并且,有些情况下会有不止两台服务器对外提供服务。
RHCS(红帽高可用集群套件)
RHCS是Red Hat Cluster Suite的缩写,也就是红帽子集群套件,RHCS是一个能够提供高可用性、高可靠性、负载均衡、存储共享且经济廉价的集群工具集合,它将集群系统中三大集群架构融合一体,可以给web应用、数据库应用等提供安全、稳定的运行环境。
更确切的说,RHCS是一个功能完备的集群应用解决方案,它从应用的前端访问到后端的数据存储都提供了一个行之有效的集群架构实现,通过RHCS提供的这种解决方案,不但能保证前端应用持久、稳定的提供服务,同时也保证了后端数据存储的安全。
在后文会有RHCS的详细配置和介绍以及应用