服务器硬件问题导致虚拟机自动重启

环境:Esxi虚拟化 宿主机上面跑两台机器(20.11,21.12),插两块300G的SATA硬盘

现象:监控页面在昨天半夜到今早经常出现空缺部分(感觉应该是机器重启了):

    现象如下

排查:

1.首先在21.12这台机器上使用last命令查看重启情况(没来得及截图)但是确实是系统重启过

2.查看/var/log/messages日志,锁定8:27分的日志(也就是重启的时间段)

单从日志信息上看cpu不支持变频的问题,由于在操作系统和VCS日志中均没有发现其他异常,因此怀疑是服务器硬件出了问题,去机房一看,服务器住面板的故障灯显示红色

报错信息如下:PDR1101 FAULT delected on drive1.check drive

看着是drive1硬盘坏了,为了保险起见,找到快速服务代码,联系戴尔客服,客服解释是硬盘问题

由于这台服务器是之前同事上架的,并不知道raid级别,关闭这台服务器,再次开机摁ctrl+r,查看,发现做的是raid1(还算有良心,系统有同步的)

于是把坏的硬盘拔下去,在找到一块大小型号一样的服务器类型硬盘插上去(服务器使用的是dell cheetah 15k.7 300GB SATA)(虽然带有红色按钮的硬盘支持热插拔,但是并不建议开机的时候插拔,最好先关机)

这台机器是做的EXSI虚拟化,又是raid1,按照常理来说坏的硬盘拔下来,插上新的硬盘对系统不会有影响,虚拟机还能正常进去,但是当我在宿主机中打开21.12这台虚拟机的时候,报错(进不去了)

赶紧去机房重启宿主机服务器,发现系统进不去了,提示找不到,一直在PXE获取,但是没有系统可进

重启 修改硬盘为ACHI模式,ctrl+r 查看硬盘的状态,硬盘状态显示是online的,于是可以确定是第二块硬盘raid数据损坏了,导致系统都没了(看来raid1并不稳啊)

目前摆在眼前有两种解决办法 1.找专业的戴尔工程师修复数据备份,重装ESXI

          

              2.重装EXSI

本机是测试环境,数据并不重要

但是环境比较重要,于是在其他宿主机分出一部分硬盘空间,联系同事临时部署个资管对应分支代码的环境给测试使用,我这头再重新安装ESXI

重启 ctrl+r进raid 做个raid1,然后清空之前硬盘的数据,开始初始化,等待大概二十分钟

接一个外接光驱,插入R720 ESXI镜像光盘,然后在重启,摁F11进bios UEFI 选择DVD USB模式启动

开始安装过程从镜像中拷贝文件

拷贝完成

进入安装过程,按回车继续

用户协议,点击F11接受并继续

选择安装位置

按回车继续

按F11安装

选择安装语言

设置系统安装密码,需要最少7位

确认安装,并提示如果安装将重建磁盘,点击F11确认

经过一段时间等待,安装成功。点击回车重启。

重启

重启之后会再次拷贝文件,也就是这两个页面

然后再次重启进入PXE分配ip进入系统(我们现在可以在这台虚拟化宿主机上建虚拟机继续使用了)

以上步骤也可以连接戴尔服务器管理口(IDRAC)操作

【IP设置】

(1)最简单设置方法就是利用前面板的LCD加三个左右确认按钮,进入Setup->iDRAC->IP->子网掩码->网关->DNS设置(最后的DNS最好也设置一下)。在设置好之后,切记要按确认。

(2)如果想进入BIOS里面设置,开机按F2,System Settup->iDRAC Setting,在NIC Selectioin那里选一个网口(默认LOM1)。记录右边滑动条往下来才能看到设置IP地址,默认已经是172.12.0.171设置好。

可以在面板上查看 √ setup  IDRAC

【网络访问】

刚开始还以为按默认的172.12.0.171设置就可以,在本地服务器还是远程,怎么都登陆不上。

有几个原因如下:

(1) 首先,因为我们电脑是DHCP获取到192.168.x的IP,所以不可能到达172.12的网段。所以,我们把电脑的网卡设置为手动IP,然后点高级,将172.12.x的网段加进入。

iDRAC的全称为 Integrated Dell Remote Access Controller ,中文翻译为戴尔远程控制卡,一般位于服务器的后面,标注为iDRAC。开机运行时候可以通过机器前面的LCD控制面板对它进行IP的设定,然后就可以在本地的任何一台电脑上,在IE浏览器中输入刚才配置的IP地址,使用默认的用户名和密码(root /calvin)来操作这台电脑  ,默认用户名root,密码:calvin。(就算这台服务器刚开始的时候什么系统都没有),就像这服务器就在你面前一样 ,可以设置BIOS中的各项设置。例如现在我设置服务器的iDRAC 的 IP为172.16.136.171 ,连接上网线。在我本机上面,输入这个Ip地址,然后会出现下图:

时间: 2024-10-09 05:49:06

服务器硬件问题导致虚拟机自动重启的相关文章

使用Windows PowerShell配置Hyper-V虚拟机自动重启

在企业实际生产环境,尤其是部署了服务器虚拟化之后,配置虚拟机自动重启是一个很有必要的措施,即使当服务器出现问题或者计划内维护完成之后又能够自动重启虚拟机,亦可以减少宕机时间. 今天的文章主要介绍在Hyper-V环境中使用PowerShell配置虚拟机自动重启. 一. 使用Windows PowerShell查看尚未配置虚拟机自动重启 系统内置的PowerShell可以允许您查看虚拟机配置的哪种自动启动.而不是用鼠标右键VM选择设置查看,在HYPER-V主机上使用如下 PowerShell命令和使

从库crash一直自动重启(mysqld got signal 11)问题解决

一:问题描述 今天收到邮件报警,遂进数据库查看slave状态,发现io进程和sql进程都为NO. mysql> show slave status \G; *************************** 1. row*************************** Slave_IO_State: Master_Host: 此处不予显示,哈哈 Master_User: replica Master_Port: 3306 Connect_Retry: 60 Master_Log_Fil

电脑不停重启怎么办?电脑总是自动重启是什么原因

最近小编的电脑出现了一个问题,那就是电脑一直喜欢自动重启,经过一系列的检查一直,才找到了原因,并解决了这个问题.网上搜了相关资料,发现也有很多朋友遇到过类似的问题,但是一直没有解决,所以今天小编就给大家分享一下电脑总是自动重启怎么解决的具体方法,下面我们看看具体内容. 电脑总是自动启动的原因: 1.驱动不兼容问题,这种主要表现的刚装驱动或者更新驱动. 2.硬件问题,包括内存.电源.硬盘等问题. 3.系统中病毒,木马导致系统自动重启. 电脑总是自动重启的解决方法: 通过对上面的分析,我们可以对问题

关于Azure虚拟机被重启的处理

该问题大概发生在8月中旬,当时有个孵化团队(我们公司是做创业孵化器的)的人员找我反映说有一台Azure虚拟机被重启了,不知道是什么原因,让我检查下.由于当时并没有发现Azure平台有异常, 1. 通过抽取虚拟机系统event log,发现在重启前,有系统更新和自动安装补丁,因此导致VM的重启 也就是说Azure上的虚拟机实际上都是有开启自动更新的,有些更新需要重启系统.为了避免因重启导致业务中断,建议关闭虚拟机的自动更新.

CentOS kernel panic后自动重启

这段时间公司有几台老化的服务器老是莫名其妙宕机,最后查看日志都是一些类似"I/O error"的错误导致的kernel panic.由于这几台机器跑的也不是什么重要的业务,为了省事想干脆把内核设置为内核崩溃了自动重启.在网上查了下,下面的方法测试有效: 编辑/etc/sysctl.conf 添加kernel.panic到内核参数,为内核崩溃20秒之后,自动重启系统 kernel.panic = 20 设置完成后可以通过以下方法测试,需要修改sysrq参数: 编辑/etc/sysctl.

如何用supervisor守护php-fpm主进程以实现php-fpm的自动重启

最近有同事有个针对php-fpm进程的监护需求,也即:如果php-fpm的master进程意外退出(可能是crash,也可能是被误kill),那么希望master进程能被自动拉起,以免中断服务. 我们知道,supervisor是一个非常强大的进程监控(monitor & control)工具,它理论上可以实现php-fpm master进程的守护需求.因此,我帮同事试验了如何用supervisor完成他的需求,结果表明,supervisor确实是神器,只需一个合理的配置文件,它就能解决问题. 下

观察者模式实际应用:监听线程,意外退出线程后自动重启

摘要: 观察者模式,定义对象之间的一种一对多的依赖关系,当对象的状态发生改变时,所有依赖于它的对象都得到通知并且被自动更新.观察者模式在JDK中有现成的实现,java.util.Obserable. 首先说下需求:通过ftp上传约定格式的文件到服务器指定目录下,应用程序能实时监控该目录下文件变化,如果上传的文件格式符合要求,将将按照每一行读取解析再写入到数据库,解析完之后再将文件改名.(这个是原先已经实现了的功能,请看我的一篇文章java利用WatchService实时监控某个目录下的文件变化并

小米note自动重启的解决方案

1.更换手机开机排线,50元以内 2.按住音量键+,出现简体中文,速度按几下电源键确认重启 2.长按关机键+音量上键,显示了 简体中文 等语言选择界面后 3.长按关机键+音量下键,显示了关机选项和清楚内存 3.搜狗输入法卸载,用自带百度小米输入法 4.去小米之家也是帮忙刷机 5.电池老化了导致短路 系统误认为一直按着电源键 导致一直重新启动 附: 这个问题是通病居然网上很少怀疑按键,根据症状如果进去recover还是重启就是按键短路了,,我发出来是看到上面好多人这个情况 开关键+音量上键,进入R

Android启动早于系统应用的第三方应用,杀不死自动重启的第三方应用

1.为什么第三方应用能早于System的app启动? Android应用的启动顺序网上有一大堆资料可以查阅了,这里就不细述了,这里不阐述ROM启动还有bootloader,软件启动的大致流程应该是 启动kernel 运行servicemanager 把一些native的服务用命令启动起来(包括wifi, power, rild, surfaceflinger, mediaserver等等) 启动Dalivk中的第一个进程Zygote -> 启动java 层的系统服务system_server(包