vsphere Fault Tolerance 故障容错

Vsphere HA 与vsphere FT的对比

HA:通过在主机出现故障的时候重新启动虚拟机来为虚拟机提供基本级别的保护,提供快速恢复,减少非计划停机时间. 说明在虚拟机重新启动的时候有中断时间,存在宕机时间,还是不能保证服务的连续性,虚拟机重启的时间取决于虚拟机本身。

FT: 为了解决HA存在的宕机时间,获得比vsphereHA所提供的级别更高的可用性和数据保护,从而确保业务连续性,消除中断时间。

FT的基本机制:

通过创建和维护与主虚拟机相同,且可在发生故障切换时随时替换主虚拟机的辅助虚拟机,形成虚拟机对。

可以为大多数任务关键虚拟机启用FT,并会创建一个重复虚拟机(辅助虚拟机),它会以虚拟锁步(vlockstep)方式随主虚拟机一起运行。

vlockstep:可获捕主虚拟机上发生的输入和事件,并将这些输入和事件以日志记录的方式发送到正在另一主机上运行的辅助虚拟机。主虚拟机的操作会随时同步到辅助虚拟机上。它可以无中断地接管任何点处的执行,提供容错保护。

主虚拟机和辅助虚拟机可持续交换检测信号,使得虚拟机对中的虚拟机能够监控彼此的状态。

  • 如果运行主虚拟机的主机发生故障,系统会自动执行透明故障切换,会立即启用辅助虚拟机替换主虚拟机,同时在几秒内建立冗余
  • 如果运行辅助虚拟机的主机发生故障,则该主机也会立即被替换。

主虚拟机和辅助虚拟机总是成对出现。

用户感觉不到服务中断和数据丢失的情况。

主虚拟机及其辅助副本不允许在相同的主机上运行。

FT不支持的vsphere的功能:

1、快照。在虚拟机上启用FT前,必须移除快照。不能对已启用的FT的虚拟机执行快照。

FT和快照不能同时存在。

2、Storage vmotion:不能为已启用FT 的虚拟机调用svmotion,若要迁移存储器,应但暂时将FT关闭,再进行操作。

3、链接克隆:(用于桌面虚拟化环境)不能为链接克隆的虚拟机上启用FT,相反一样的道理。

只能做完全克隆。

4、虚拟机备份:不能使用storageAPI for Data Protection 、VDR(做静默快照)或需要使用虚拟机快照的备份产品来备份启用了FT的虚拟机。

FT与DRS配合使用

比如:有三台主机A B C,A为主虚拟机,创建辅助虚拟机时选择B或C就是DRS的工作。根据哪台物理资源比较合适,就选哪台。

FT群集要求

1、主机证书检查功能已启用。

2、至少有两台通过FT认证的主机运行相同的FT版本号或主机内部版本号。

3、esxi主机必须有共享存储,并且主机都可以访问。

4、配置FT日志记录、vmotion网络。

5、HA群集已创建并启用。

主机要求:

1、主机的cpu处理器必须来自与FT兼容的处理器组。处理器之间要兼容。可以上微软或vmware官网上去查看。

2、每台主机,在BIOS中启用硬件虚拟化(HV)

虚拟机的要求:

1、虚拟机必须存储在虚拟RDM或厚置备的虚拟机磁盘(VMDK)文件中。

精简置备:实际占用多少就多少  虚拟机实际占用的磁盘大小,最大不能超过主机分配的大小。

厚置备:主机分配的大小是多少就是多少。

2、虚拟机文件必须存储在共享存储上。

3、只有带有单个VCPU的虚拟机才能与FT功能兼容 。单核,当大于等于2时被阻止启用FT。

将主机添加到群集中,有两种方式:

1、直接拖进去

2、右击群集然后添加主机

没有在共享存储上的虚拟机,开启FT之后,两台虚拟机会在同一台主机上。

份额:2台或多台虚拟机在竞争同一个cpu或内存资源时,份额越大,资源分的越多。

预留:比如说预留为500M则虚拟机确保在启动时,群集满足虚拟机的最小内存。

如果主机可用资源小于虚拟机预留资源时,虚拟机不能启动。当启用FT之后,自动会设置预留,关闭FT之后需要手工将预留关闭。

限制:最大值限制

时间: 2024-07-31 19:17:10

vsphere Fault Tolerance 故障容错的相关文章

Fault Tolerance(FT)

vSphere Fault Tolerance通过创建和维护与主虚拟机相同,并且可在发生故障切换时随时替换主虚拟机的辅助虚拟机,来确保虚拟机的连续可用性,其实就是一为某一个虚拟机创建一个完全相同的副本.可以为虚拟机启用vSphere Fault Tolerance.比获得比vSphere HA所提供的级别更高的可用性和数据保护,从而确保业务连续性.Fault Tolerance时基于ESXi主机平台构建的(使用VMware vLockstep技术),它通过在单独主机上一虚拟锁步方式运行相同的虚拟

将Fault Tolerance功能与DRS配合使用

启用Enhanced vMotion Compatibility(EVC)功能,可以将vSphereFault Tolerance与vSphere Distributed Resource Scheduler(DRS)配合使用.此过程不但可使容错虚拟机受益于更好的初始放置位置,还可以将其纳入群集的负载平衡计算中. 当群集启用了EVC时,DRS将为容错虚拟机提出初始放置位置建议,在重新平衡群集负载期间移动这些虚拟机,并运行为主虚拟机分配DRS自动化级别(辅助虚拟机总是采用与其关联的主虚拟机相同的设

Fault Tolerance —— Storm的故障容错性

 本文讲解了Storm故障容忍性(Fault-Tolerance)的设计细节:当Worker.节点.Nimbus或者Supervisor出现故障时是如何实现故障容忍性,以及Nimbus是否存在单点故障问题. 当一个Worker挂了会怎样? When a worker dies, the supervisor will restart it. If it continuously fails on startup and is unable to heartbeat to Nimbus, Nimb

Flink Program Guide (7) -- 容错 Fault Tolerance(DataStream API编程指导 -- For Java)

false false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-parent:""; mso-padding-alt

VMware Fault Tolerance 概述及功能

VMware Fault Tolerance - 为您的应用程序提供全天候可用性 通过为虚拟机启用 VMware Fault Tolerance,最大限度地延长数据中心的正常运行时间,减少停机管理成本.基于 vLockstep 技术的 VMware Fault Tolerance 可使应用程序实现零停机.零数据丢失,同时消除了传统硬件或软件集群解决方案的成本和复杂性. 1.消除因硬件故障造成的停机VMware Fault Tolerance 是一项前沿技术,它通过创建实际上与主实例保持同步的虚拟

Practical Byzantine Fault Tolerance

来自论文Practical Byzantine Fault Tolerance 本文旨在进行Byzantine faults的容错,文章开门见山提出了新算法的优势:可工作在异步环境(如Internet),响应时间可以获得比之前算法超过一个数量级的提升.当然肯定会有limitation伴随,我们试着找出它们. 一开始文章就告诉我们有一个问题还没能解决:fault-tolerant privacy. ?Normal-Case Operation 提出了Buffered requests,可以减少系统

Flink Program Guide (9) -- StateBackend : Fault Tolerance(Basic API Concepts -- For Java)

State Backends 本文翻译自文档Streaming Guide / Fault Tolerance / StateBackend ----------------------------------------------------------------------------------------- 使用Data Stream API编写的程序通常以多种形式维护状态: ·  窗口将收集element或在它被触发后聚合element ·  Transformation方法可能会

Apache Flink fault tolerance源码剖析(四)

上篇文章我们探讨了Zookeeper在Flink的fault tolerance中发挥的作用(存储/恢复已完成的检查点以及检查点编号生成器). 这篇文章会谈论一种特殊的检查点,Flink将之命名为--Savepoint(保存点). 因为保存点只不过是一种特殊的检查点,所以在Flink中并没有太多代码实现.但作为一个特性,值得花费一个篇幅来介绍. 检查点VS保存点 使用数据流API编写的程序可以从保存点来恢复执行.保存点允许你在更新程序的同时还能保证Flink集群不丢失任何状态. 保存点是人工触发

Apache Flink fault tolerance源码剖析(一)

因某些童鞋的建议,从这篇文章开始结合源码谈谈Flink Fault Tolerance相关的话题.上篇官方介绍的翻译是理解这个话题的前提,所以如果你想更深入得了解Flink Fault Tolerance的机制,推荐先读一下前篇文章理解它的实现原理.当然原理归原理,原理体现在代码实现里并不是想象中的那么直观.这里的源码剖析也是我学习以及理解的过程. 作为源码解析Flink Fault Tolerance的首篇文章,我们先暂且不谈太有深度的东西,先来了解一下:Flink哪里涉及到检查点/快照机制来