管理和维护RHCS集群

导读 管理和维护RHCS集群是一个非常复杂和繁琐的工作,要维护好一个RHCS集群,必须熟悉RHCS的基本运行原理,在集群管理方面,RHCS提供了两种方式:即Luci图形界面方式和命令行方式,这儿重点讲述在命令行下如何管理RHCS集群。

启动RHCS集群

RHCS集群的核心进程有cman和rgmanager。要启动集群,依次启动cman,然后再启动rgmanager,操作如下:
在主机web1上启动集群服务:

[[email protected] ~]# service cman start
Starting cluster:
     Loading modules... done
     Mounting configs... done
     Starting ccsd... done
     Starting cman... done
     Starting qdiskd...done
     Starting daemons...done
     Starting fencing... done
[ OK ]

等cman在其它节点成功启动后,开始启动rgmanager服务,具体操作如下:

[[email protected] ~]# service rgmanager start
Starting Cluster Service Manager: [ OK ]

关闭RHCS集群

与启动集群服务器刚好相反,关闭RHCS集群的命令如下:

[[email protected] ~]# service rgmanager stop
[[email protected] ~]# service cman stop

有时在关闭cman服务时,可能会提示失败,此时可以检查本机的共享存储GFS2文件系统是否已经卸载,也可以检查其它节点的rgmanager服务是否全部已经正常关闭。

管理应用服务

集群系统启动后,默认自动启动应用服务,但是,如果某个应用服务没有自动启动,就需要手动来启动。管理应用服务的命令是clusvcadm,通过这些命令可以启动、关闭、重启、切换集群服务中德尔应用服务。

启动某个应用程序

可以通过以下方式启动某个节点上的应用服务,以启动wrbserver为例:

[[email protected] ~]#clusvcadm -e webserver -m web1
Member web1 trying to enable service:webserver...Success
service:webserver is now running on web1

关闭某个应用程序

可以通过以下方式关闭某个节点上的应用服务,以启动mysqlserver为例:

[[email protected] ~]#clusvcadm -s mysqlserver -m web1
Member mysql1 stopping service:mysqlserver...Success

重启某个应用程序

可以通过以下方式重启某个节点上的应用服务,以启动wrbserver为例:

[[email protected] ~]#clusvcadm -R wrbserver -m web1
Member web1 trying to restart service:wrbserver...Success

这个命令是在web2节点上执行的,也能将web1节点上的wrbserver进行重启,由此可知,clusvcadm命令可以在集群任意节点上执行都是可以的。

切换某个应用程序

可以通过以下方式切换某个节点上的应用服务,以在节点web1的服务切换到节点web2上为例:

[[email protected] ~]# clusvcadm -r wrbserver -m web2
Trying to relocate service:webserver to web2...Success
service:webserver is now running on web2

监控RHCS集群状态

通过对RHCS的监控,有助于了解集群每个节点的健康状态,发现问题并及时解决问题。RHCS集群提供了丰富的状态查看命令,这里主要介绍cman_tool、clustat、ccs_tool的使用方法。

cman_tool命令

cman_tool参数比较多,但使用方法比较简单,这儿介绍两个参数的使用方法:

[[email protected] ~]# cman_tool  nodes -a
Node  Sts   Inc   Joined               Name
   0   M      0   2010-08-23 01:24:00  /dev/sdb7
   1   M   2492   2010-08-23 01:22:43  web2
       Addresses: 192.168.12.240
   2   M   2492   2010-08-23 01:22:43  Mysql1
       Addresses: 192.168.12.231
   3   M   2492   2010-08-23 01:22:43  Mysql2
       Addresses: 192.168.12.232
   4   M   2488   2010-08-23 01:22:43  web1
       Addresses: 192.168.12.230

此命令显示了节点名称,以及对应的节点IP地址和加入集群的时间。
如果要了解更多集群节点信息,可以通过如下命令:

[[email protected] ~]# cman_tool   status
Version: 6.2.0
Config Version: 35  #集群配置文件版本号
Cluster Name: mycluster   #集群名称
Cluster Id: 56756
Cluster Member: Yes
Cluster Generation: 2764
Membership state: Cluster-Member
Nodes: 4   #集群节点数
Expected votes: 6   #期望的投票数
Quorum device votes: 2   #表决磁盘投票值
Total votes: 6   #集群中所有投票值大小
Quorum: 4 #集群法定投票值,低于这个值,集群将停止服务
Active subsystems: 9
Flags: Dirty
Ports Bound: 0 177
Node name: web1
Node ID: 4  #本节点在集群中的ID号
Multicast addresses: 239.192.221.146 #集群广播地址
Node addresses: 192.168.12.230 #本节点对应的IP地址

clustat命令

clustat命令使用非常简单,详细的使用方法可以通过“clustat -h”获取帮助信息,这里仅仅列举几个例子。

[[email protected] ~]#clustat  -i 3
Cluster Status for mycluster @ Mon Aug 23 18:54:15 2010
Member Status: Quorate
Member Name              ID                        Status
 ------ ----            ----                       ------
 web2                     1                    Online, rgmanager
 Mysql1                   2                    Online, rgmanager
 Mysql2                   3                    Online, rgmanager
 web1                     4                    Online, Local, rgmanager
 /dev/sdb7                0                    Online, Quorum Disk
 Service Name             Owner (Last)         State
 ------- ----             ----- ------         --------
 service:mysqlserver      Mysql1               started
 service:webserver        web1                 started

对输出内容含义如下:
clustat的“-i”参数可以实时的显示集群系统中每个节点以及服务的运行状态,“-i 3”表示每三秒刷新一次集群状态。
在这个输出中,可以看到每个节点都处于“Online”状态,表明每个节点都运行正常,如果某个节点退出了集群,对应的状态应该是“Offline”,同时还可以看到,集群的两个服务也处于“started”状态,分别运行在Mysql1节点和web1节点。
另外,通过“ID”一列可以知道集群节点的对应关系,例如,web2在此集群中对应的就是“Node 1”节点,同理,web1对应的是“Node 4”节点。了解集群节点顺序有助于对集群日志的解读。

ccs_tool命令

ccs_tool主要用来管理集群配置文件cluster.conf,通过ccs_tool可以在集群中增加/删除节点、增加/删除fence设备、更新集群配置文件等操作。
下面是ccs_tool的几个应用实例:
当在一个节点修改完配置文件后,可以执行“ccs_tool update”指令将配置文件在所有节点进行更新,例如:

[[email protected] cluster]# ccs_tool  update /etc/cluster/cluster.conf
Proposed updated config file does not have greater version number.
  Current config_version :: 35
  Proposed config_version:: 35
Failed to update config file.

ccs_tool是根据cluster.conf中的“config_version”值来决定是否进行更新的,因此在修改完cluster.conf文件后,一定要将cluster.conf的config_version值进行更新,这样执行ccs_tool时才能更新配置文件。

[[email protected] cluster]# ccs_tool  update /etc/cluster/cluster.conf
Config file updated from version 35 to 36
Update complete.

免费提供最新Linux技术教程书籍,为开源技术爱好者努力做得更多更好:http://www.linuxprobe.com/

时间: 2024-10-10 06:59:36

管理和维护RHCS集群的相关文章

命令行管理和维护RHCS集群

1.启动RHCS集群 RHCS集群的核心进程有cman和rgmanager,要启动集群,一次在集群的每个节点上执行如下命令: service cman start service rgmanager start 执行着两个命令是有先后顺序的,要先启动cman,然后再启动rgmanager. [[email protected] ~]# service cman start Starting cluster: Checking if cluster has been disabled at boo

使用ansible快速配置RHCS 集群 实现WEB站负载均衡高可用(手记)

什么是RHCS RHCS是Red Hat Cluster Suite的缩写,也就是红帽子集群套件,RHCS是一个能够提供高可用性.高可靠性.负载均衡.存储共享且经济廉价的集群工具集合,它将集群系统中三大集群架构融合一体,可以给web应用.数据库应用等提供安全.稳定的运行环境. 更确切的说,RHCS是一个功能完备的集群应用解决方案,它从应用的前端访问到后端的数据存储都提供了一个行之有效的集群架构实现,通过RHCS提供的这种解决方案,不但能保证前端应用持久.稳定的提供服务,同时也保证了后端数据存储的

RHCS集群简介及配置web高可用

                 RHCS集群配置 一.RHCS集群简介 RHCS(Red Hat Cluster Suite)集群是红帽官方提供的子集群套件,它整合了高可用集群.负载均衡集群.存储集群,从而为用户提供了完整的一套从前端到应用到存储的集群解决方案.通过RHCS集群提供的集群服务,可以为web,数据库等关键业务提供高效,稳定的运行环境. 二.RHCS的核心功能 1.负载均衡 RHCS的负载均衡集群通过LVS(Linux Virtual Server)来实现其功能,LVS是由前端的调

RHCS集群原理概述

一. 什么是RHCS RHCS是Red Hat Cluster Suite的缩写,也就是红帽集群套件,RHCS是一个能够提供高可用性.高可靠性.负载均衡.存储共享且经济廉价的集群工具集合,它将集群系统中三大集群架构融合一体,可以给web应用.数据库应用等提供安全.稳定的运行环境. 更确切的说,RHCS是一个功能完备的集群应用解决方案,它从应用的前端访问到后端的数据存储都提供了一个行之有效的集群架构实现,通过RHCS提供的这种解决方案,不但能保证前端应用持久.稳定的提供服务,同时也保证了后端数据存

RHCS集群理论暨最佳实践

RHCS集群理论暨 最佳实践 什么是集群?     集群是一组(>2)相互独立的,通过高速网络互联的计算机组成的集合.群集一般可以分为科学集群,负载均衡集群,高可用性集群三大类.     科学集群是并行计算的基础.它对外就好象一个超级计算机,这种计算机内部由十至上万个独立处理器组成,并且在公共消息传递层上进行通信以运行并发应用程序,像中国的银河,曙光超级计算机.     高可用性集群,当集群中的一个系统发生故障时,集群软件迅速作出反应,将该系统的任务分配至集群中其它正在工作的系统上执行,通过消除

RHCS集群套件之用Luci/Ricci实现Web集群的详细配置

RHCS集群介绍请看http://11107124.blog.51cto.com/11097124/1884048 在RHCS集群中每个集群都必须有一个唯一的集群名称,至少有一个fence设备(实在不行可以使用手动fence_manual),且至少要有三个节点,两个节点必须有仲裁磁盘 准备环境 node1:192.168.139.2 node2:192.168.139.4 node4:192.168.139.8 VIP:192.168.139.10 在node1装luci创建集群,并进行集群管理

RHCS集群套件简介

RHCS(Red Hat Cluster Suite)也就是红帽集群套件,RHCS是一个能够提供高可用性.高可靠性.负载均衡.存储共享且经济廉价的集群工具集合,它将集群系统中三大集群架构融合一体,可以给web应用.数据库应用等提供安全.稳定的运行环境. 更确切的说,RHCS是一个功能完备的集群应用解决方案,它从应用的前端访问到后端的数据存储都提供了一个行之有效的集群架构实现,通过RHCS提供的这种解决方案,不但能保证前端应用持久.稳定的提供服务,同时也保证了后端数据存储的安全. RHCS提供了集

CentOS 6.6 上使用 luci/ricci 安装配置 RHCS 集群

1.配置 RHCS 集群的前提: 时间同步 名称解析,这里使用修改/etc/hosts 文件 配置好 yum 源,CentOS 6 的默认的就行 关闭防火墙(或者开放集群所需通信端口),和selinux, 关闭 NetworkManager 服务 2. RHCS 所需要的主要软件包为 cman 和 rgmanager cman: 是集群基础信息层,在 CentOS 6中依赖 corosync rgmanager: 是集群资源管理器, 类似于pacemaker 的功能 luci: 提供了管理 rh

RHCS集群 服务不能正常启动 解决方法

对于初次搭建 RHCS 集群 总是遇到 很多 意想不到的 trouble. 用 luci  管理 集群时 : 在  搭建  server group  服务  ,服务出现 disable  那是 常有的时.. 下面给出  我在 练习中 解决 方法.. 1.无 法 在 Fence 或 者 重 启 后 重 新 加 入 集 群 的 节 点:  重启 rgm anager 捕获应用程序 core 前,请移动或删除 / 目录中的所有旧 core 文件.应重启出现rgm anager 崩溃的集群节点,或者在