我们在规划服务器本地存储的时候,一般是为服务器配置RAID,并在机房放置一块同样容量、大小的硬盘做为备用。并且定期巡检机房,一旦看到磁盘报警(红灯或黄灯),应该用备用硬盘替换故障磁盘,此时RAID卡会检测到硬盘替换,并在新替换的磁盘上重建数据。这种方式是目前大多数单位使用的方法,但是,服务器一般都能正常使用三、五年不出问题,开始的时候,可能还会定期检查服务器,之后可能管理员就很少去机房检查,即使去机房检查也很少一一查看服务器的硬盘指示灯。在配置RAID5时,如果阵列中只有一块硬盘出现故障,系统会正常工作,如果有多块硬盘出现故障,则系统将不能正常工作。如果长时间不检查,等发现系统出现问题时再去检查,一般都是出现不止一块磁盘出现故障,此时修复系统就比较麻烦。今天我就碰到一例,一台有6块300GB硬盘、配置了RAID5的服务器,有两个硬盘出现故障(一块呈琥珀色闪烁,表示驱动器出现故障;另一块呈绿色/琥珀色闪烁,驱动器预报故障)的问题。
1 替换有故障磁盘
一台工作多年的DELL 2900服务器,近期有一块磁盘(位置为3)出现故障(呈琥珀色闪烁,离线),而另一块磁盘(位置为0)亦开始呈绿色/琥珀色闪烁,该提示是驱动器预报故障。该服务器共有6块3.5寸、15K、300GB硬盘,配置RAID5,这6块磁盘依次插在0~5的位置。如图1-1所示。
图1-1 服务器正面图
此时服务器已经不能进入系统(提示找不到系统盘)。我到机房之后,看到服务器硬盘档板都是灰尘(如图1-2所示),先关闭服务器电源,将每个硬盘拔下,先清理灰尘,注意不要一下把所有硬盘拔下来,而是一个一个清理灰尘,避免插错位置。
图1-2 硬盘档板灰尘
等清理完灰尘之后,重新打开服务器的电源,按Ctrl+R键进入RAID配置配置,在"Physical Disk Management"(物理磁盘管理)视图中,可以看到03盘位的磁盘已经标记为"Failed",如图1-3所示。
图1-3 磁盘03已经失败
因为机房有一块备用硬盘,换上备用硬盘之后,开始重建,如图1-4所示。
图1-4 磁盘3 Rebuild
返回到"VD Mgmt"界面,在"Physical Disks(物理磁盘组)"可以看到重建进度,如图1-5所示。
图1-5 重建进度
对于300GB的磁盘,在没有进入操作系统界面、在RAID卡配置界面中,大约需要70分钟的时间就可以完成重建。如图1-6所示,重建完成。
图1-6 重建完成
在重建完成后,需要进行数据的一致性校验。在"Virtual Disks(虚拟磁盘)"中,选择每一个逻辑磁盘,按F2键,选择"Consistency Check(一致性检查,以便验证使用 RAID 级别 1、5、6、10、50 和 60 的虚拟磁盘中的冗余数据)",如图1-7所示,检查数据是否完好、正确。
图1-7 一致性检验
一致性检查速度较快,如图1-8所示,这是检验进度。应该几分钟完成。注意,不要误选中"Initialization(初始化)",完全初始化将对所有已经存在的数据造成永久性破坏。
图1-8 校验进度
应该对每一个逻辑磁盘进行校验。检验完成后,退出RAID卡配置界面,此时系统会得以恢复。
对于00位置的磁盘、间隔大约120秒闪烁一次黄灯的硬盘,为了防患于未然,也应该替换,但当前机房只有一个硬盘,需要购买新的硬盘替换。
2 添加全局备用磁盘
当前情况是,该单位有两台DELL 2900服务器,每台服务器都是6块硬盘做RAID5,在机房准备了一块备用磁盘,发现那台服务器磁盘出现问题就人工替换。由于服务器已经使用多年,管理人员怕硬盘再次出现问题,毕竟不可能每天都来机房检查。此时就引来一个问题,有没有办法,不是人工替换硬盘,而是由服务器自动替换损坏硬盘呢?这可以通过在服务器中添加全局热备用磁盘来解决。
全局热备用磁盘,是在磁盘子系统中配置一块或多块额外的磁盘,额外的磁盘平常不用,处于备用状态,一旦系统中出现有故障的磁盘,系统可以用备用的磁盘自动重建磁盘控制器上任何发生故障的驱动器。奇偶/镜像数据用于将有故障磁盘中丢失的数据写入到热备用磁盘中,从而将处于临界状态的时间降为最低。
RAID-0没有必要采用热备用驱动器,因为它不提供任何镜像数据或奇偶校验信息,当然也不能实现磁盘重建。
如果要为所有服务器都配置全局备用磁盘,需要为每台服务器再次配置一块相同容量、性能的磁盘。
等过了几天,磁盘到位之后,我们先在有故障硬盘的服务器的空闲盘位上(磁盘位置07)插上新的硬盘,进入系统将这块新添加的硬盘配置为全局热备磁盘,然后拔下00位置的故障磁盘,查看全局热备是否启用。主要步骤如下。
(1)进入RAID卡配置界面,在物理磁盘管理界面,可以看到07位置已经添加了一个同样大小、接口的磁盘,状态为Ready(就绪),而其他正在使用的磁盘状态为online,如图1-9所示。
图1-9 查看磁盘
(2)选中新添加的磁盘,按F2,在弹出的快捷菜单中选择"Make Global HS(成为全局热备用)",如图1-10所示。
图1-10 标准全局热备
(3)在弹出的对话框中选择"YES",如图1-11所示。
图1-11 确认
(4)设置为全局热备磁盘状态为"Hotspare",如图1-12所示。
图1-12 设置为全局热备
(5)返回到"VD Mgmt"管理界面,可以看到07硬盘为全局热备,信息为"Global,Affinity",如图1-13所示。此时工作磁盘为00、01、02、03、04、05。
图1-13 查看配置
此时如果要退出RAID配置界面,系统会正常使用。
(6)拔下位置0的故障磁盘,此时原来在"Hot spares"磁盘07会替换0位置的磁盘,开始重建,如图1-14所示。此时数据磁盘为01、02、03、04、05、07。
图1-14 全局热备磁盘代替故障磁盘
(7)在00位置插上新买的磁盘,这个磁盘状态为Ready,如图1-15所示。
图1-15 新添加的00位置磁盘状态
(8)之后将这个磁盘再次标记为全局热备,如图1-16所示。
图1-16 标准新添加磁盘为全局热备
(9)之后这块新添加的00位置磁盘变为全局热备,而原来07位置状态为Rebuild,代替原来的00位置的磁盘,如图1-17所示。
图1-17 磁盘状态
(10)返回到VD管理,查看重建进度,如图1-18所示。
图1-18 重建进度
此时你可以等重建完成,也可以退出RAID卡管理界面,进入系统继续使用。数据重建会在后台继续运行,起到数据同步完成。
对于另一台服务器,也要在空闲位置添加新磁盘,并设置为全局备用,这不一一介绍。
以后如果服务器硬盘出现故障,系统会用全局热备磁盘替换。当管理员例行巡检时看到故障磁盘之后,用新硬盘替换,并将新替换的硬盘设置为全局热备磁盘即可。这些就不再一一介绍了。