如何解决VMware ESX中出现的常见问题?

在这里,我们记录一些在ESX主机上发生的、相当常见的问题。通常,可以采取一些简单的步骤去解决这些问题,但有的问题就需要较深入的解决方法。

紫屏死机(PSoDs, Purple Screen of Death)

有一种在ESX和ESXi主机上都可能发生的故障,叫做紫屏死机(可以说是臭名昭著的微软蓝屏死机的VMware版)。紫屏死机会导致ESX/或ESXi主机突然崩溃、变得无法操作。紫屏死机现象如图10.6所示,你一定不希望在自己的主机上发生这种现象。

图10.6 ESX主机上的紫屏死机现象

当PSoDs发生时,ESX会完全死机,没有任何反应。硬件问题(坏有问题的内存是最常见的原因)或ESX中的BUG是导致PSoDs的典型原因。当PSoDs发生时,你只能关闭并重启主机。屏幕上的提示信息非常有用,应该尝试记录它:可以使用带有拍照功能的手机给它照相,或者,如果存在的话,可以从一个远程管理面板上截图。你或许看不明白这些捕获下来的信息,但是,这些信息对VMware的技术支持来说非常有用。屏幕上显示的信息包括ESX的版本和build号、异常类型、寄存器转储(register dump)、崩溃时每个CPU正在跑什么、回溯追踪(back-trace)、服务器运行时间、错误日志、内存硬件信息等。

当你遇到PSoDs并重启主机之后,在ESX主机或/root文件夹下,会有一个以vmkernel-zdump开头(命名)的文件。这个文件对VMware技术支持非常有用,同时,你也可以使用该文件,通过vmkdump工具提取 VMkernel日志信息、寻找与PSoDs有关的线索,从而判断PSoDs发生的原因。要使用这个命令,输入vmkdump –l dump <文件名>。如前所述,坏有问题的内存是PSoDs中常见的原因。 你可以使用dump 文件识别引起问题的内存模块,从而将其替换掉。

如果怀疑是坏内存引起PSoDs,可以使用一些内存压力测试工具来检测主机的内存。这些工具需要你关闭主机并从CD启动以进行内存测试。一个常用的工具是Memtest86+,它可以进行广泛的内存测试,比如,检测邻近内存单元的相互影响,以确保要写某单元时不会覆盖邻近的单元。你可以在www.memtest.org下载这个工具。

当你在某个主机上首次部署ESX的时候,进行一次内存测试是个好主意,这样可以避免在以后某个时候内存故障引起麻烦。许多的内存问题都是不明显的,简单的内存测试,比如POST过程中的内存校验可能都发现不了问题。你可以下载Memtest86+测试工具,一个2MB大小的ISO文件,将这个文件刻录成CD,让主机从该CD启动,然后运行该工具至少24小时以完成多种内存测试。主机中的内存越大,完成一次测试的时间越长,一个拥有32GB内存的主机完成一次测试大概需要1天的时间。除了系统内存,Memtest86+还检测CPU的L1和L2 cache。Memtest86+的运行时间不确定,当所有的测试都完成时,通过的计数器会增加。(Memtest86+ will run indefinitely, and the pass counter will increment as all the tests are run.)

服务器控制台问题

有时候,你可能会遇到服务器控制台问题,表现为:服务器控制台挂起,同时,不允许在本地登录。这种状况可能是由硬件锁定或僵尸状态引起,但是,通常这种问题不会影响在ESX主机上运行的虚拟机(VM)。重启是解决这种问题的常用方法,但是,在重启之前,你应该关闭VM,或者将VM VMmotion到其他的ESX。可以使用各种可用的途径来操作VM,完成关闭或迁移。比如,使用VI client、通过SSH登录到服务控制台或者使用可替代的/紧急的控制台(通过按Alt+F2到F6)。当VM被迁移或者关闭之后,你可以使用reboot命令重启ESX,如果所有的控制台都没有响应,你就只能去按主机上的电源按钮,冷启动主机。

网络问题

有时,你也会遇到某种故障导致丢失了所有或者部分的网络配置,或者网络配置改变导致服务控制台丢失网络连接。当服务控制台的网络连接丢失时,你将无法使用远程的方法来连接ESX主机,包括VI client和SSH。你只能在本地的服务控制台上使用esxcfg-命令行工具恢复/修正网络配置,以下是一些命令,你可以从ESX CLI上使用它们配置网络:

esxcfg-nics 
 
这个命令显示物理网卡列表,除去每个网卡的驱动信息、PCI设备、链接状态,你可以使用这个命令控制物理网卡的速度、双工模式等。esxcfg-nics –l显示网卡信息、esxcfg-nics –h显示该命令可用的选项,以下是一些例子:

o设置物理网卡vmnic2的速度和双工模式为100/Full:
esxcfg-nics -s 100 -d full vmnic2 
o设置物理网卡vmnic2的速度和双工模式为自适应模式:
esxcfg-nics -a vmnic2

esxcfg-vswif

创建或者更新服务控制台网络,包括IP地址和端口组,esxcfg-vswif –l显示当前设置、esxcfg-vswif –h显示可用的选项,以下是一些例子:

o更改服务控制台(vswif0)IP地址和子网掩码:
esxcfg-vswif -i 172.20.20.5 -n 255.255.255.0 vswif0 
o添加服务控制台(vswif0):
esxcfg-vswif -a vswif0 -p "Service Console" -i 172.20.20.40 -n 255.255.255.0

esxcfg-vswitch

创建或者更新虚拟机网络(vSwitch) ,包括上行链路、端口组和VLAN ID. 输入esxcfg-vswitch –l显示当前的vSwitch、 esxcfg-vswitch –h显示所有可用的选项. 以下是一些例子:

o将物理网卡(vmnic2) 添加到vSwitch (vSwitch1):
esxcfg-vswitch -L vmnic2 vswitch1 
o将物理网卡(vmnic3)从一个vSwitch (vSwitch0)上移除:
esxcfg-vswitch -U vmnic3 vswitch0 
o在vSwitch (vSwitch1)上添加一个端口组(VM Network3): 
esxcfg-vswitch -A "VM Network 3" vSwitch1 
o在vSwitch (vSwitch1)上给端口组(VM Network 3)分配一个VLAN ID(3): 
esxcfg-vswitch -v 3 -p "VM Network 3" vSwitch1

esxcfg-route

设置或提取缺省的VMkernel网关路由。输入esxcfg-route –l当前的路由信息、esxcfg-route -h显示所有可用的选项. 以下是一些例子:

o设置缺省的VMkernel网关路由: 
esxcfg-route 172.20.20.1 
o添加一个路由到VMkernel:
esxcfg-route -a default 255.255.255.0 172.20.20.1

esxcfg-vmknic

为VMotion、NAS和iSCSI创建或者更新VMkernel TCP/IP设置。输入esxcfg-vmknic –l显示VMkernel NICs、esxcfg-vmknic -h显示所有可用的选项. 以下是一些例子:

o添加一个VMkernel NIC并设定IP和子网掩码:
esxcfg-vmknic -a "VM Kernel" -i 172.20.20.19 -n 255.255.255.0

另外,你可以通过service network restart命令重启服务控制台网络。

其他问题

有时,重启某些ESX服务既可解决问题且不影响VM的运行。两个可以被重启、并可经常解决问题的服务是hostd和vpxa。运行在服务控制台中的Hostd服务负责管理ESX上的大部分操作,要重启hostd服务,登入服务控制台,输入service mgmt-vmware restart。

vpxa服务是管理代理,用于处理主机和客户端之间的通讯,客户端包括vCenter Server和任何连接到ESX的VI client。如果在vCenter Server上看到某个主机显示disconnected但没有显示当前信息,或者,任何其他的涉及到vCenter Server和一个主机的奇怪的问题,都可以通过重启vpxa服务来解决。要启动该服务,登入服务控制台,输入service vmware-vpxa restart。当你遇到问题时,推荐你重启这两个服务,因为,重启它们经常可以解决很多问题。

鼎峰胡佳雄
QQ.2881064155
Skype.live:2881064155

时间: 2024-10-29 01:03:04

如何解决VMware ESX中出现的常见问题?的相关文章

轻易解决VMware 虚拟机中被提示“请不要在虚拟机中运行此程序“

决 VMware 虚拟机 中被提示 "请不要在虚拟机中运行此程序"或者"Themida Sorry, this application cannot run under a Virtual Machine"方法 自己发现问题,解决问题后,觉得应该分享给大家.用记事本打开 VMX 文件 类似 Windows XP Professional.vmx ,在文本末尾加入一行 monitor_control.restrict_backdoor = TRUE 保存文件 现在启动

解决Vmware Vsphere中虚拟机与本地机复制粘贴问题

要在客户机操作系统和远程控制台之间进行复制和粘贴,必须使用 vSphere Client 启用复制和粘贴操作. 步骤 a.使用 vSphere Client 登录到 vCenter Server 系统并选择虚拟机. b.在摘要选项卡中,单击编辑设置. c.选择选项 > 高级 > 常规,然后单击配置参数. d.单击添加行,并在“名称”和“值”列中键入以下值. 名称值 isolation.tools.copy.disable false isolation.tools.paste.disable

解决Vmware虚拟机中克隆Centos后无法启动网卡的问题

0.前面的话:困扰很久的问题 之前经常出现这样的问题,但由于实在找不到解决的办法,只能硬着头皮自己重新去安装一个新的操作系统,虽然是浪费点时间,但也勉强解决了吧. 但有问题不解决总不好,后来经过各种搜索和询问网友,找出了下面这个非常好的解决方法,经测试,这个方法可以完美解决这个问题. 1.问题引出:克隆Centos后出现网卡无法配置的情况 在实验环境中经常要用到多个Linux操作系统的情况,为了避免再次安装等待的时间,这时我们一般会采取克隆操作系统的方法,但是这样就会出现一个问题,就是克隆后的操

解决VMware虚拟机中centos 7无法上网的问题

在WMware中安装centos 7后发现无法安装软件,开始以为是镜像服务器的问题,后来通过ping之后发现根本没办法连接到网络.由于很多设置都是默认的,并且虚拟机也是NAT模式,和电脑主机共享网络,所以应该不是VMware设置的问题.通过查阅了网上的很多资料之后,最终原因竟然是默认安装惹的祸,具体的处理方式如下. 首先是进入/etc/sysconfig/network-scripts/目录下: 命令:cd /etc/sysconfig/network-scripts 然后查看目录下的文件中有一

VMware ESXi中不能显示CPU及内存使用情况的解决方法

今天一个网友问我,他管理的机房有4台ESXi 5.1的服务器,其中三台ESXi Server不能显示各个虚拟机占用的CPU.内存情况了,如图1-1所示. 图1-1在"虚拟机"选项卡中不能显示每个启动虚拟机的资源占用情况 另外,在VMware ESXi的"摘要"中,CPU与内存的使用情况也统计出错,如图1-2所示. 图1-2 摘要统计出错 在出现这个问题时,各个ESXi Server上的虚拟机可以正常启动.关闭,并且各虚拟机运行的系统及应用不受影响. 从上面两个图我看

VMWare ESX/ESXi 虚拟机硬盘的厚置备(Thick Provision)与精简置备(Thin Provision)的转换

转自:http://www.wiser001.cn/2014/11/21/vmware-esxesxi-%E8%99%9A%E6%8B%9F%E6%9C%BA%E7%A1%AC%E7%9B%98%E7%9A%84%E5%8E%9A%E7%BD%AE%E5%A4%87thick-provision%E4%B8%8E%E7%B2%BE%E7%AE%80%E7%BD%AE%E5%A4%87thin-provision%E7%9A%84%E8%BD%AC/ VMWare ESX/ESXi 有两种硬盘置备

Vmware ESX 5.0 安装与部署

近期我公司部署了虚拟化,採购了两台Dell R710的server(CPU:64位双核,主频:2.4GHZ, 32G 内存.硬盘:2块300G做Riad 1.3块2T做Riad 5 .10块网卡),在两台server上安装了Vmware Esx 5.0 ,因为虚拟化方面的知识之前仅仅是使用过一些client使用的虚拟机软件而已,摸索到如今,遇到非常多问题,查了非常多资料,走了非常多弯路,随着遇到问题解决这个问题的过程,对虚拟化系统有所了解了,今天将这些过程写下来,一来做个总结,二来为以后留个參考

解决VMware虚拟环境的数据保护难题

随着服务器虚拟化技术不断升温,越来越多的企业看好于虚拟化技术在节能和管理方面的效益,并将这一技术广泛的应用在自己的IT环境中.但是,当企业对于如何保护物理服务器上激增数据的问题没找到有效答案时,如何保护虚拟机,特别是远程办公地点的虚拟机的数据问题,又成为IT管理人员要挑战的新高峰.一套即可以保护企业物理环境,又可以有效保护虚拟环境:即可以解决本地系统数据的备份/恢复难题,又可以覆盖远程数据的各种故障/灾难的解决方案,成为IT管理者们急需的‘解药’. 物理与虚拟,本地与远程都要保护 NN是一家拥有

VMware群集中主机报&#39;此主机当前没有管理网络冗余&#39;

一般在正常环境下,VMware群集启用vSphere HA高可用后,VMware会检查网络适配器的冗余配置,如果仅仅使用单个网络适配器,就会报这样的提示"此主机当前没有管理网络冗余". 如何条件允许,建议再启用一个网络适配器,与之前的做成网络冗余,这样以来,提示就会消失. 此外,还可以通过相应的如下配置,使该提示消失: VMware vSphere (5.0,6.0,6.5)配置完成Cluster的HA后在主机的摘要栏提示"此主机当前没有管理网络冗余",此时服务器都