如何尽可能挽救RAID故障带来的损失?

案例:

抛出一个做过RAID,开机出现问题的案例。当然这里只是其中一个现象。

从中可以得到三个信息。

1、Adapter RAID BLOS V5.2-0     //可能和RAID有关

2、press<ctrl><A>for ibm serveRAID configuration utility!  //ctal+A进入BLOS配置

3、controller monitor initializing...     //控制器监视初始化…

遇到这样的问题,一般人可能会不淡定了,不知道如何有效的,最小损失的解决问题。

在这里,我谈一下个人的经验和看法,希望可以帮助到一些人。出现上述问题,处理步骤可见下:

###############################################################


谈谈本人对于做RAID 后期维护的经验:

1、RAID的选择:

1.1)RAID5

1.2)RAID+热备

1.3)RAID10

1.4)其他

其中上面三种方式用的颇多,用RAID之前,要知道其中的不同,如果你是做RAID5的话,要注意定期机房查看,或者通过监控检测(不过还是觉得定期机房查看为好),不过这里要明白,至少坏多少盘磁盘阵列会出现问题。这也是一些人用RAID5之后,加了个热备盘的原因。至于RAID10,用的也比较多,而且风险要比RAID5小一些。因此,RAID的选择很重要。


2、数据的备份

你始终要明白,做RAID是为了更好的确保数据的安全性,但是你更要明白,数据备份才是王道,即使做了RAID,数据也要定期备份,如果数据十分重要,一点也不可以丢失,那选择一种实时备份尤为重要。


3、RAID数据盘和系统盘区分

我本人还是比较建议RAID和系统区分开的,比如系统盘做RAID1,数据库盘单独做别的RAID,合理化管理。当然如果不喜欢这种方式也可以。


4、RAID卡报错,处理步骤如下:

4.1)首先检查物理服务器磁盘是否出现黄灯或者红灯现象,一般先是黄灯的偏多。


4.2)黄灯情况,坏的盘理论不影响数据

4.2.1)要先想想是否数据进行了备份,如果没有,尽快备份。

(此考虑是在系统并没有关机,只是监控报警发现RAID卡出现问题)

4.2.2)如果系统不慎关机,发现此现象,那先考虑是否有售后,数据备份有没有备份,如果有,先恢复当前业务为主,然后将磁盘拿到售后进行处理。


4.3)如果没有售后且红灯且理论影响数据,尽可能挽救损失。

4.3.1)尝试此服务器换个系统(系统不能在RAID卡),然后启动系统,尝试挂载RAID阵列,备份数据

4.3.2)如果由于一般原因(比如松动,磁盘内部发生报错),可尝试是把服务器的RAID卡抠出来再放进去一般就能解决了,如果此方法不能解决的话则有可能是RAID卡有了问题。

4.3.3)出现问题的磁盘不要直接使用(除非磁盘坏道修复,没有其它)


5、RAID卡出现问题注意事项

5.1)不要随意插拔硬盘

5.2)不能搞乱RAID卡顺序

5.3)如果是一块RAID卡出现问题,可换一块磁盘即可。


总结:数据为大,选好RAID卡阵列,定期数据备份,平时机房监控查看,懂得尽可能挽救RAID阵列里的数据,尽可能避免损失。


本文完全博主就RAID问题个人经验总结,如有问题,欢迎指出。

时间: 2024-11-05 09:40:55

如何尽可能挽救RAID故障带来的损失?的相关文章

记录一次raid故障后的恢复和回迁数据全过程

故障发生在两块盘组成的一个raid0上,其中的一块盘亮黄灯,被raid卡踢出后,raid崩溃,下面就把当时抢救数据的整个过程进行介绍. 由于硬盘是两块SAS 300G的硬盘,先把硬盘从机器中拔出来,然后通过SAS HBA的方式直连到win的环境下,并在磁盘管理中将硬盘标记为脱机状态,以保证操作过程中是只读的,保护原始数据的安全. 在将两个硬盘底层所有扇区都镜像出来后,通过文件系统分析盘序和条带大小,使用软件虚拟重组的方式将原始raid环境搭起来后,再进一步解析ntfs文件系统后终于看到了数据,这

EMC存储Raid故障数据分析报告

一.故障描述用户的EMC FC AX-4存储出现崩溃现象,整个存储空间由12块1TB STAT的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用.由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用.二.检测磁盘由于存储是因为某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道.三.备份数据考虑到数据的安

记一次Raid故障磁盘故障恢复

由于业务服务器中一块硬盘有坏道,用硬盘哨兵检测软件检测,已经提示亮红叉了. 重启服务器进入阵列模式(ctrl+R),将坏盘强制下线,并拔出坏硬盘. 拔出后看阵列,其中有个盘显示为MISS状态. 情况一:将硬盘托架换上新硬盘,插入服务器 硬盘状态为Non-Raid模式,所以先将硬盘软换成Raid模式: 情况二:若插入硬盘后,状态显示为foreign则表示此盘含有其它阵列信息(当然可以通过import导入原阵列信息. 我们可以先把原阵列信息清除,再创建Raid. 这里我们选择CLEAR将原磁盘阵列信

Nagios和商业开源网管软件SugarNMS的功能介绍和区别

Nagios简介 Nagios是一个监视系统运行状态和网络信息的监视系统.Nagios能监视所指定的本地或远程主机以及服务,同时提供异常通知功能等.Nagios可运行在Linux/Unix平台之上,同时提供一个可选的基于浏览器的WEB界面以方便系统管理人员查看网络状态,各种系统问题,以及日志等等.Nagios通常由一个主程序(Nagios).一个插件程序(Nagios-plugins)和四个可选的ADDON(NRPE.NSCA.NSClient++和NDOUtils)组成.Nagios的监控工作

OpenNMS与智和网管平台开发性能评估

随着网络系统结构的日益庞大复杂,运维人员有必要使用一套网络管理系统来方便快捷的管理好网络.为了更好的管理各种设备,便于对网络中的故障进行排查,公司需要一款满足需求的网管软件.目前市面上的网管软件众多,这些软件经过适当的配置即可对通用设备进行管理.但这些通用的功能无法满足我们100%的需求,必须进行二次开发.出于公司所使用技术(Java).市场占用率和功能全面性,选择了两款提供两次开发的平台,OpenNMS与智和网管平台,通过对两款产品进行全方位的对比,选择出一款适合的网管软件,在此基础上进行整合

MVC简单认识

学习一个新知识,首先要了解的就是下面几个问题,它是什么?它能干什么?使用它有什么好处?这篇文章就围绕这几个问题来展开讨论. mvc不是一种编程语言,严格来说,它都不算是一门技术,它是开发软件时使用的一种"架构(框架)".他就像是一种开发模式,或者是一个程序设计模板. 软件开发人员老生常谈的一个问题,就是软件开发过程中的变化,需求会变,技术会变,客户会变,老板会变,更痛苦的是PM也会变,开发过程中没有什么是固定不变的,改变会给软件开发带来非常大的变故,这些我们都无法改变,我们唯一能做的就

OpenNMS和商业开源网管软件SugarNMS的比较

OpenNMS是网络管理系统Network Management System 的简称,是一种开源软件网络监视工具.可用来自动发现网络节点,监控网络服务,如HTTP,DNS,SSH等,当系统服务停止时,OpenNMS会依管理者所建立的规则寄出通知,告知运维人员网络障碍,事件汇整,自动执行对应动作,以及服务层级效能监控.?它可以支持SNMP网络管理协议,确保管理的扩展性,并且提供定制功能从而有利于管理范围的伸缩,流量和接点系统硬件使用情况需要在配置snmp. 目前,OpenNMS专注以下三个方面:

水文勘测中心应用金笛USB短信猫

水文勘测中心应用金笛USB短信猫及OCX开发控件智能管理平台实现监控告警功能,网络基础管理提供全面的网络资源的性能监控.告警管理.配置管理等.告警管理模块能自动汇总全网中故障设备,形成故障设备列表,使管理员能快速.清晰的找到需要关注的故障设备,并提供告警声光提示.但为了能实时将告警信息通知给网络管理员,还需要一种基于现代通信的方式将网络告警信息实时传到网络管理员,即短信方式告警通知.这种方式减小了由于网络故障带来的损失,提供网络利用率,减小人力成本支出.

线上故障处理原则

墨菲定律 任何事情都没有表面看起来那么简单 所有事情的发展都会比你预计的时间长 会出错的事情总会出错 如果担心某个事情发生,那么它更有可能发生 墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生.这警示我们,在互联网公司,对生成环境发生的任何怪异现象和问题都不要轻视,对其背后的原因一定要调查清楚.同样,海恩法则也强调任何严重的事故背后都是很多次小问题的积累,当到一定量级后会导致质变,严重的问题就会浮出水面.那么,我们需要对线上服务产生任何现象,哪怕是小问题,都要刨