HeartBeat 集群组件概述

Heartbeat 是一个基于Linux开源的高可用集群系统。主要包括心跳服务和资源接管两个高可用集群组件。心跳监测服务可以通过网络链路和串口进行，而且支持冗余链路，它们之间相互发送报文来告诉对方自己当前的状态，如果在指定的时间内未收到对方发送的报文，那么就认为对方失效，这时需启动资源接管模块来接管运行在对方主机上的资源或者服务。本文简要描述了heartbeat v2集群架构组件及其相关概念，供大家参考。

一、高可用集群的特点

高可用服务

通常使用集群方式实现，这也是集群的最大作用和体现。
其终极目标是确保服务实时可用，不会因为任意的软硬件故障导致服务出现终止和不可用的情形。

度量标准

系统的可靠性(reliability)和可维护性(maintainability)来度量。
工程上，通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均修复时间(MTTR)来度量系统的可维护性。
    计算公式，HA=MTTF/(MTTF+MTTR)*100%
    99%         全年停机时间不超过4天
    99.9%       全年停机时间不超过10小时
    99.99%      全年停机时间不超过1小时
    99.999%     全年停机时间不超过6分钟

集群节点

集群软件必须包括一种机制来定义哪些系统的可用作集群节点(定义节点，2节点或以上)。
所有位于集群中的主机都称为节点。

集群服务与资源

哪些服务或应用程序可以在节点之间进行故障转移，并互连可以在节点间传送通信。
服务通常包括多种资源，多种资源组成某种服务。
如mysql高可用服务，则vip，mysqld，共享或镜像磁盘等则为该服务所需要的资源。
对集群服务的管理，实际上是对资源的管理。

资源隔离与脑裂

由于软硬件故障导致节点宕机发生资源争用，即出现故障节点或正常并存的情形。
在故障的节点控制相同的集群资源的情况下，实施资源隔离，防止脑裂发生(Fence机制，STONITH等)。

集群状态监控

通过集群管理和监控工具以及预定义的脚本来配置常见的服务或应用程序，监控，故障转移等。
最为大家所熟知的如心跳，主要用于在集群环境中各节点之间相互感知对方的存在。
可以基于串口、多播、广播和组播通信机制。一旦心跳失败，则会发生相应的资源转移，集群重构等动作。

二、HeartBeat组件

Heartbeat 是一个基于Linux开源的高可用集群系统。主要包括心跳服务和资源接管两个高可用集群组件，其重大的版本变更主要分为三个阶段。

1、Heartbeat 1.x组件

Heartbeat1.x允许集群节点和资源通过/etc/ha.d目录下面的两个文件来配置

ha.cf：定义集群节点，失效检测和切换时间间隔，集群时间日志机制和节点Fence方法

haresources:

定义集群资源组，每一行定义可以一起进行失效切换的一个默认的节点和一组资源，资源包括IP地址，文件系统，服务或者应用

2、Heartbeat 2.x组件

Heartbeat 2.0 在基于Heartbeat1.x 基础上配置引入了模块结构的配置方法，集群资源管理器(Cluster Rescource Manager-CRM).

CRM模型可以支持最多16个节点，这个模型使用基于XML的集群信息(Cluster Information Base-CIB)配置。

Heartbeat 2.x官方最后一个STABLE release 2.x 版本是2.1.4。

CIB文件(/var/lib/heartbeat/crm/cib.xml)会在各个节点间自动复制，它定义了下面的对象和动作:

*集群节点

*集群资源，包括属性，优先级，组和依赖性

*日志，监控，仲裁和fence标准

*当服务失败或者其中设定的标准满足时，需要执行的动作

消息传递和基础设施层(Messaging and Infrastructure Layer)

初级或第一层是消息传递/基础设施层，也被称为心跳层。#Author:Leshami
此层包含了发送含有“我还活着”信号的心跳信息，以及其他信息的组件。
Heartbeat程序驻留在消息/基础设施层。#Blog:http://blog.csdn.net/leshami

成员层(Membership Layer)

成员层从底层即心跳层获取信息，负责计算集群节点的最大完全连接设置并同步到节点上的所有成员。
该层负责集群成员间的一致性，提供集群拓扑结构给上一层组件。

资源分配层(Resource Allocation Layer)

第三层是资源分配层。这一层是最复杂的，且由以下部分组成：
集群资源管理器(Cluster Resource Manager)
    在资源分配层的每一个动作由集群资源管理器管理。
    资源分配层的任意组件，或其他更高层的任何组件需要通信，则由本地集群资源管理器管理。

    在每一个节点上，集群资源管理器维护集群信息库，或CIB（见下文集群信息库）。
    集群中的一个节点会被选为指定协调器(DC)，这意味着它具有主CIB。集群中的所有其他CIB是主CIB的副本。
    对CIB正常的读写操作都通过主CIB序列化。
    在集群中，DC可以决定一个群集范围的变化需要执行的相关变更，如隔离一个节点或移动资源等。

集群信息库(Cluster Information Base)
    集群信息库或CIB是整个集群配置和状态，包括节点成员，资源约束等，是一个驻留内存的XML文件。
    在集群中，有一个由DC维护的主CIB，所有其他节点包含一个CIB副本。
    如果管理员想管理集群，则可以使用cibadmin命令行工具或heartbeat GUI工具。
    heartbeat GUI工具可以用于从任何机器到集群的连接。
    cibadmin命令必须在集群节点上使用，并且不限制于只能在DC节点。

策略引擎和转换引擎(Policy Engine (PE) and Transition Engine (TE))
    每当指定协调器需要进行集群范围的变化(重构新的CIB)，策略引擎用于计算集群的下一个状态和(资源)来实现它需要操作的列表。
    由策略引擎计算出的命令然后由转换引擎执行。
    DC将向集群资源管理器发送相关信息，然后用自己的本地资源管理器(LRM)，进行必要的资源操作。
    PE和TE必须成对运行在DC节点上。

本地资源管理器LRM(Local Resource Manager)
    本地资源管理器调用本地资源代理代表CRM。因此它可以执行启动/停止/监视操作并将结果报告给CRM。
    LRM保留的是本地节点上所有资源相关的信息。

资源层(Resource Layer)

第四和最高层是资源层。资源层包括一个或多??个资源代理（RA）。
资源代理是一个程序，通常是一个shell脚本，包含启动，停止和监视某种服务（资源）。
最常见的资源代理是LSB初始化脚本。然而，HeartBeat也支持更加灵活和强大的开放式集群架构资源代理API。
提供心跳的代理被写入OCF规范。资源代理只由本地资源管理器调用。
第三方可以在文件系统中定义自己的代理，整合自己的软件到集群中。

3、Heartbeat 3.x组件

在v3版本后，整个heartbeat项目进行了功能拆分，分为不同的子项目来分别进行开发。但是HA实现原理与Heartbeat2.x基本相同，配置也基本一致。在v3版本后，被拆分为heartbeat、pacemaker(心脏起博器)、cluster-glue(集群的贴合器)，架构分离开来了，可以结合其它的组件工作。

Heartbeat 3官方正式发布的首个版本是3.0.2。原来之前的CRM管理由pacemaker来替代，底层message layer依旧可以使用heartbeat v3也可以使用corosync等。其具体细节本文不做介绍，可单独参考clusterlabs.org。

三、heartbeat集群处理流程

在群集中执行的任意行为将导致整个群集的更改。这些操作包括像添加或删除集群资源或改变资源的限制。当执行这样操作的时候，重要的是要了解集群中会发生什么。

例如，假设需要添加一个集群IP地址资源。要做到这一点，使用的cibadmin命令行工具或Heartbeat GUI工具来修改主CIB。它不要求使用cibadmin命令或在指定协调器上的GUI工具。你可以在集群中的任何节点上使用任何工具，本地的CIB将重放的请求的更改到指定协调器。然后指定协调会复制CIB变化到所有群集节点，并启动转换过程。

在策略引擎和过渡引擎的帮助下，指定协调器获得的一系列需要在集群中完成的步骤，有可能在多个节点上的步骤。指定协调器通过消息层向其他集群资源管理器发送命令。

如果需要的话，其他的群集资源管理使用它们的本地资源管理器来执行资源的修改并返回其结果给指定协调器。一旦指定协调的上的TE推断出在集群中所有必须的操作已成功完成，集群将回到空闲状态并等待进一步事件。

如果任何操作并没有按计划进行，该策略引擎再次调用记录在CIB中的新信息。

当一个服务或节点死亡，同样的事情会发生。指定协调器会被集群一致成员服务（在一个节点死亡）或本地资源管理通知（如遇失败的监视器操作）。指定协调器需要确定将要变更到一个新的群集状态的行为。新的群集状态将由一个新的CIB表示。

时间： 2024-10-03 00:26:16

HeartBeat 集群组件概述的相关文章

高可用(HA)集群原理概述

一.高可用集群(High Availability Cluster) 集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源.每一个单个的计算机系统都叫集群节点(node).随着业务的增长,集群通过添加新的节点,满足资源的高可扩展性. 计算机硬件和软件易错性不可避免,这样在节点上的服务会不可避免的中断.高可用集群的出现是为保证即使节点失效,而服务能不中断. 高可用集群在一组计算机中,采用主备模式,主节点提供服务,备节点等待:一旦,主节点失效,备节点无需人工的无缝取代主节点提

Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN

集群模式概述该文档给出了 Spark 如何在集群上运行.使之更容易来理解所涉及到的组件的简短概述.通过阅读应用提交指南来学习关于在集群上启动应用. 组件 Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序). 具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standlone Cluster Manager,或者

Linux集群架构概述

Linux集群架构概述根据功能划分:两大类:高可用和负载均衡高可用集群通常为两台服务器,一条工作,另外一台作为冗余,当提供服务的机器宕机,(rongyu)冗余将接替继续提供服务(适合不能出现宕机的服务器)实现高可用的开源软件有:heartbeat.keeplived负载均衡集群,需要有一台服务器作为分发器,他负责把用户的请求分发给后端的服务器处理,在这个集群里,除了分发器外,就是给用户提供服务的服务器了,这些服务器数量至少为2实现负载均衡的开源软件有 LVS.keepalivd.haproxy

Storm集群组件和编程模型

Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架.什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流. 比如一般金融系统一直不断的执行,金融交易.用户全部行为都记录进日志里,日志分析出站点运维.猎户信息.海量数据使得单节点处理只是来.所以就用到分布式计算机型,storm 是当中的典型代表之中的一个,一般应用场景是:中间使用一个消息队列系统如kafka,先将消息缓存起来,storm 中有非常多的节点,分布

Oracle数据库精讲课程之Rac管理（集群组件、性能监控及调整、节点管理、备份和恢复）

对这个课程有兴趣的朋友可以加我的QQ2059055336和我联系本课程主要是介绍Oracle RAC体系结构与工作机制,了解并掌握RAC数据库下的相关技术,如:cache Fusion. Failover.load balance.FAN.OCR和Voting disk等,通过VMWARE虚拟环境,实践演练RAC数据库的安装部署.RAC数据库日常性能监控.备份和恢复.实例增加和删除以及补丁安装等操作,通过本课程的学习,学员在掌握RAC理论知识基础上,能够熟练掌握RAC数据库的日常管理操作. 课

heartbeat集群安装配置

安装配置高可用集群需要注意:1.节点名称:集群每个节点的名称都得能互相解析 /etc/hosts hosts主机名的正反解析结果必须跟"uname -n"的结果保持一致2.时间必须的同步使用网络时间服务器同步3.并非必须:各节点间能基于ssh秘钥认证通信 heartbeat V2版本环境测试环境准备节点两个node1:10.10.10.202node2:10.10.10.203系统环境CentOS release 6.5 (Final)1.建立双机互信node1:ssh-keyge

RHCS集群原理概述

一. 什么是RHCS RHCS是Red Hat Cluster Suite的缩写,也就是红帽集群套件,RHCS是一个能够提供高可用性.高可靠性.负载均衡.存储共享且经济廉价的集群工具集合,它将集群系统中三大集群架构融合一体,可以给web应用.数据库应用等提供安全.稳定的运行环境. 更确切的说,RHCS是一个功能完备的集群应用解决方案,它从应用的前端访问到后端的数据存储都提供了一个行之有效的集群架构实现,通过RHCS提供的这种解决方案,不但能保证前端应用持久.稳定的提供服务,同时也保证了后端数据存

cdh集群组件的原理介绍

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545; min-height: 14.0px } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC"; color: #454545 } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; f

Redis集群功能概述

在单机Redis中介绍过Redis的复制特性以及Redis Sentinel和twemproxy,其中: 复制:可以创建指定服务器的复制品,这些复制品可以用户扩展系统处理读请求的能力: Redis Sentinel:可以在复制特性的基础上,通过监视主从服务器并在主服务器故障时执行自动故障转移来保证系统的可用性: twemproxy:使用分片策略来讲数据库划分到多个不同的服务器,以此来扩展系统存储的数据量,并通过将命令请求分散给不同的服务器来处理,以此来扩展系统处理命令请求的能力: 但是以上的特性