故障检测和主机网络隔离
代理会相互通信,并监控群集内各台主机的活跃度。默认情况下,此操作通过每秒交换一次检测信号来完成。如
果15 秒过去后仍未收到检测信号,而且 ping
不到该主机,则系统会声明该主机发生故障。如果主机发生故障,则将对该主机上运行的虚拟机进行故障切换,即在具有最多可用未预留的容量(CPU
和内存)的备用主机上重新启动。
主机网络隔离在主机仍在运行但已经无法再与群集内的其他主机通信时发生。在默认设置中,如果主机停止接收群集内所有其他主机的检测信号的时间超过 12 秒钟,则将尝试 ping 其隔离地址。如果仍然失败,主机将声明自己已与网络隔离。
如
果在 15
秒或更长时间内隔离主机的网络连接仍未恢复,则群集内的其他主机将认为该主机发生了故障,并会尝试故障切换其虚拟机。但是,如果隔离主机保留对共享存储器
的访问权限,则它也会保留虚拟机文件上的磁盘锁。为避免潜在数据损坏,VMFS
磁盘锁定会阻止对虚拟机磁盘文件同时进行写操作,并尝试故障切换隔离主机的虚拟机故障。默认情况下,隔离主机会保持其虚拟机为启动状态,但您可以更改主机
对“虚拟机关机”或“关闭虚拟机”的隔离响应。参见虚拟机选项。
虚拟机选项
虚拟机重新启动优先级
虚拟机重新启动优先级确定主机发生故障后虚拟机的重新启动相对顺序。这些虚拟机在新主机上按顺序重新启动,首先启动优先级最高的虚拟机,然后是那些低优先级的虚拟机,直到重新启动所有虚拟机或者没有更多的可用群集资源为止。如果主机故障数目或重新启动的虚拟机数目超过了接入控制所允许的数目,则系统可能会等到有更多资源可用时再重新启动优先级较低的虚拟机。VMware 建议为提供最重要服务的虚拟机分配较高的重新启动优先级。
主机隔离响应
主机隔离响应确定当 VMware HA 群集内的主机失去其服务控制台网络(在 ESXi 中为 VMkernel 网络)连接但仍在运行时将发生的情况。主机隔离响应要求启用“主机监控状态”。如果“主机监控状态”处于禁用状态,则主机隔离响应将同样被挂起。当某个主机停止接收所有其他主机的检测信号而且通过 ping 操作无法获得其隔离地址时,可以确定该主机已被隔离。发生这种情况时,主机会执行其隔离响应。响应包括:保持启动、关闭电源和关机。还可以为各个虚拟机自定义此属性。要使用“关机”设置,必须在虚拟机的客户机操作系统中安装 VMware Tools。将虚拟机关机的优点在于可以保留其状况。此操作优于关闭操作,关闭操作不会将最近的更改刷新到磁盘中,也不会提交事务。在关机完成时,已关机的虚拟机需要更长时间进行故障切换。未在 300 秒内或在高级属性 das.isolationShutdownTimeout 中指定的秒数内关机的虚拟机将被关闭。
注意 创建 VMware HA 群集后,可以替代特定虚拟机的“重新启动优先级”和“隔离响应”的默认群集设置。此替代操作对于用于特殊任务的虚拟机很有帮助。例如,可能需要先启动提供基础架构服务(如 DNS 或 DHCP)的虚拟机,再启动群集内的其他虚拟机。