Raid磁盘阵列真的是100%的安全吗?raid有哪些常见的故障?

问:
数据恢复既然是数据灾难的一种补救措施,那设计安全的RAID磁盘阵列系统也会出现数据灾难吗?
答:
RAID设计的初衷大约有3个原因:解决容量问题、解决IO性能问题与解决存储安全(冗余)问题。从数据恢复的角度看,我们暂不讨论容量与IO性能方面,仅讨论存储安全。
`
RAID中可以起到存储安全的组织方案常见的为RAID1、RAID5及其变形,基本设计思路是相似的,都是能过一定的算法,用多块硬盘之间的算法维护来保证当部分数据异常时,可通过特定算法还原出来。拿RAID5的设计方式来看,举个简单的例子说明一下,如果我们要记录两个数字,那么可以通过再多记录他们的和来达到记录的冗余性,就像我们记录3和5,同时再记录一下8(为3+5的和),那么如果我们不记得到底是几和5,只需要用8-5就可以算出这个丢失的数字了,其余情况依此。在磁盘阵列里同样是以某种算法来达到保全数据的目的,当一组3块盘的RAID5正常工作时,所有写入RAID里的数据都正确地写到特定磁盘地址,同时再生成一个特定的计算值(通常称为校验和),这个时候的读写效率是最好的。但当其中一块盘出现故障时,存储在这块故障盘上的原有数据就要通过其他硬盘的数据恢复出来,当然这个过程中控制器(硬RAID为RAID卡,软RAID实际上是个驱动)会负责这个工作,同时为了保证不宕机,控制器也会保证存储的正常化,不会让操作系统认为硬盘系统出了问题。

从上面的原理来看,RAID提供的存储安全还有一些不太容易避免的漏洞,虽然可能性不大,但存储在RAID上的数据价值可能无法评估,出丝毫的故障都可能会导致一场大的信息灾难。

转入正题,RAID通常出现的故障可能性有:
1、处于降级状态时,未及时rebuild:RAID是通过多出来的部分存储空间来提供算法上的数据安全冗余的,但当某些盘出现故障下线后,RAID便不能再提供这种存储冗余,如果管理员不及时更换盘,REBUILD整个卷,这时候其余工作中的硬盘再出现故障,RAID卷便无法正常工作了。这类故障在RAID数据恢复中比例相当高,服务器维护管理跟不上很容易发生。

`
2、控制器故障:控制器是连接物理硬盘与操作系统之间的数据存储纽带,同时因RAID的组成方式并非自然约定(特定),硬盘容量的大小,硬盘数量的多少,RAID组成级别,逻辑磁盘分割方式,块大小,校验方式等因素组合成不同的RAID信息(RAID元数据),这些RAID信息有时候会写在阵列卡上,有时候会写在硬盘上,还有的时候两者皆有。如果控制器出现故障,很多情况下更换新的控制器并不能RAID信息还原,中低端的控制器出于成本考虑,这方面漏洞更会大得多。同时即使记得住原先的RAID结构,再次重建也都是错误的数据恢复方法(见相关文章)。

`
3、固件算法缺陷:RAID的创建、重建、降级、保护等工作在控制器的实现上是非常复杂的算法,当然这里面的复杂更多地是提供尽可能万无一失的无漏洞算法,尽管厂商不会轻易承认控制器的BUG,但毫无疑问,这些问题在任何一款控制器上都无法避免。因为固件算法上BUG,可能会产生很多无法解释的故障。比如在部分服务器数据恢复案例中,有一些早期生产的DELL 2950服务器,会有RAID一块盘OFFLINE后故障盘与报警灯不一致的情况,导致客户在更换故障盘REBUILD时拔错盘,整个RAID组崩溃。

`
4、IO通道受阻导致RAID掉盘:RAID控制器在设计时为了数据的绝对安全,会尽可能避免写数据到不稳定的存储介质上,这样,当控制器与物理硬盘进行IO时,如果时间超过某个阀值,或不满足校验关系,便会认为对应的存储设备已不具备持续工作的能力,但会让其强制下线,通知管理员尽快解决问题。这种设计的初衷很好,同时也是正确的设计方式,但对于如物理链接线路松动,或因硬盘机械工作时反应超时(可能硬盘还是完好的)等随机原因对控制器而言无法分辨设备是否具备和之前一样的稳定状态,所以很不在意的某些小环节,便会导致RAID卷出现故障,此类故障的发生概率极大,而且无法避免。这也是大多数RAID出现故障后,硬盘并未有故障的原因,我们好多数据恢复服务的客户会因此质疑服务器厂商,实际上是有苦难言的,一定程度上,越是设计安全的控制器,越会发生此类现象。

`
5、控制器的稳定性:RAID的控制器在ONLINE状态下(无离线盘)工作是最稳定的,相对而言,当部分硬盘损坏(可能是逻辑故障)后离线,控制器便会工作在一个比较吃力的状态,这也是好多中低端的RAID控制器在一块盘离线后读写性能急速下降的原因。控制器的负载太重便会极大地增加数据吞吐时出现IO滞留的可能性,从而导致如上面第4点提及的RAID离线。一个不具备高速硬件处理芯片,不具备高速缓冲的控制器发生这类故障的概率要高得多。为了避免出现故障后数据恢复带来的业务停顿与额外开销,还是尽量不要选择这类磁盘阵列控制器。

6、坏硬盘:这类情况很有趣,好多人会认为正常工作的RAID里不会有坏硬盘,因为只要硬盘一坏,RAID就会让他这块坏硬盘脱机,更换新硬盘后REBUILD就又是好硬盘了。但实际上,这类情况却是不可避免的,原因是:一组RAID卷在工作很长时间以后也很少会读到物理硬盘的所有磁盘空间,同一时间更是不可能。部分情况下,硬盘会在没有读到的区域或者以前读取是良好的区域产生坏道,这类坏道因为没有读写过,所以在控制器看来是好的。产生这种坏磁道的最直接危害是在REBUILD过程中。当一块物理硬盘离线后,通常所有的技术人员及官方资料都会写尽快做REBUILD,但如果其他硬盘存在这类平常不知的坏磁道,REBUILD又都是对全盘做全面同步,就一定会读写到那些坏道,这时候REBUILD没完成,新盘无法上线,因旧盘里又发现了坏道,便会导致RAID又多出一些下线的硬盘,这样就可能会导致RAID出现故障,无法自行进行数据恢复了。

`
7、人为误操作:涉及数据恢复的数据灾难有相当一部分也是可以避免的,但总会有这样的情况:无关人员误拔RAID里的硬盘、没准备备件盘、不及时换盘、给RAID除尘时忘了原来的顺序、不小心删除了原RAID配置等。

`
8、其他我暂时想不起来的原因。
这些灾难原因除人为原因外,大多数很难直接避免,只能通过结合备份,构建整体存储安全方案来解决。其他文章会提到原因,以及抛开数据恢复话题的安全建议。

原文地址:http://blog.51cto.com/sun510/2064721

时间: 2024-10-14 01:49:11

Raid磁盘阵列真的是100%的安全吗?raid有哪些常见的故障?的相关文章

[转载]RAID磁盘阵列扩容 DELL 服务器阵列扩容&nbs

原文地址:RAID磁盘阵列扩容 DELL 服务器阵列扩容 和 RAID 级别迁移 (RLM)作者:DELL服务器 我们可通过扩充容量和 / 或改变 RAID 级别的方式来重新配置联机虚拟磁盘. 注: 跨接式虚拟磁盘 (如 RAID 10. 50 和 60)无法重新配置. 注: 重新配置虚拟磁盘时一般会对磁盘性能有所影响,直到重新配置完成后为止. 联机容量扩充 (OCE) 可通过两种方法实现. 如果磁盘组中只有一个虚拟磁盘,而且还有可用空间可供使用,则可在可用空间的范围内扩充虚拟磁盘的容量. 如果

光纤存储重组raid磁盘阵列和raid数据恢复成功案例

今天我给大家分享的是一篇关于raid磁盘阵列数据恢复的案例,本案例中包含了对磁盘阵列的修复和重组过程,raid数据恢复中的方法比较通用,希望在数据恢复方面对大家有所帮助. Raid阵列情况介绍: 需要进行数据恢复的阵列搭建在一台某品牌的S5020型号光纤存储上.这个磁盘阵列中一共包含了14块硬盘,其中10号硬盘和13号硬盘出现了故障警报,卷也无法挂载,存储无法继续工作,需要对存储进行数据恢复并修复其中的数据库. 开始恢复raid磁盘阵列: 通过storage manager连接这台存储设备进行查

初识RAID磁盘阵列(内含理论加实际实验操作)

本文将带领各位初识Raid磁盘阵列,下面将分为几个部分进行讲解: 各个类型的RAID磁盘阵列详解 阵列卡介绍 构建软RAID磁盘阵列实操 在正式解释各类RAID阵列之前,首先来了解一下什么是磁盘阵列? 磁盘阵列(Redundant Arrays of Independent Drives,RAID),有"独立磁盘构成的具有冗余能力的阵列"之意.?磁盘阵列是由很多块独立的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能.利用这项技术,将数据切割成许

RAID磁盘阵列常见故障以及修复方法

服务器数据安全有着至关重要的意义,目前大多数服务器都采用了RAID磁盘阵列技术.受服务器自身硬件局限和技术人员的操作因素,服务器无阵列无法做到100%的无故障发生.那么RAID磁盘阵列故障有哪些?RAID磁盘阵列如何进行数据恢复? 导致磁盘阵列RAID数据丢失的故障原因分为RAID逻辑层故障,RAID物理层故障以及RAID坏道层故障. 对于逻辑层故障,例如误删除,误格式化,误分区,RAID阵列信息丢失, RAID阵列信息混乱, 重新配置RAID阵列信息导致数据丢失, RAID阵列内磁盘顺序出错等

RAID磁盘阵列详细说明

RAID就是磁盘阵列. 把多块硬盘整合成为一块硬盘去工作. 我们为什么需要使用raid 磁盘阵列可以把多个磁盘驱动器通过不同的连接方式连接在一起协同工作,大大提高了读取速度,同时把磁盘系统的可靠性提高到接近无错的境界,使其可靠性极高. 用raid最直接的好处是: 1.提升数据安全性. 2.提升数据读写性能. 3.提供更大的单一逻辑磁盘数据容量存储. RAID级别 关键优点 关键缺点 实际应用场景 RAID0 读写速度最快 没有任何冗余(就是没有备份,一块盘坏了,数据全丢失) MySQl,Slav

1-15-1 RAID磁盘阵列的原理和搭建

大纲: 1.1-1-企业级RAID磁盘阵列 RAID磁盘阵列的原理 RAID0,1,5,10的搭建 硬件RAID卡 1.2-1-使用廉价的磁盘搭建RAID磁盘阵列 实战-配置RAID0带区卷 ======================================== 1.1 企业级RAID磁盘阵列 RAID磁盘阵列的原理: RAID(Redundant Array of Independent Disks)独立磁盘冗余阵列 可以提供较普通磁盘更高的速度.安全性,所以服务器在安装时,都会选择

RAID 磁盘阵列的应用

RAID 磁盘阵列的应用 RAID,一般翻译为磁盘阵列,全称是 Redundant Arrays of Inexpensive Disk,最初的构想是源于加州大学伯克利分校的一个研究小组的项目,他们希望通过大量廉价的硬盘来组建价格便宜,可用性高的磁盘阵列.但是RAID发展到今天,已经背离了当初价格便宜的初衷.但是RAID也带来了另外的好处,如何合理选择RAID的级别,可以构建出具有更高可用性,更好地容错的磁盘. RAID主要分为软件RAID和硬件RAID,软件RAID主要是通过操作系统来实现,这

LVM逻辑卷管理-软RAID磁盘阵列

LVM逻辑卷管理软RAID磁盘阵列管理################################################# 一.LVM逻辑卷管理 1. 基本概念    Logical Volume Manager        ** 多个物理分区/磁盘 ==> 组合成一个整体 ==>划分逻辑存储单位,即逻辑卷        ** 逻辑分区的大小可以根据需要扩大.缩减        ** /boot 用来存放引导文件,不能使用LVM逻辑卷(启动时会找不到内核) PV(Physica

Linux系统的RAID磁盘阵列

RAID概念 磁盘阵列(Redundant Arrays of Independent Disks,RAID),有“独立磁盘构成的具有冗余能力的阵列”之意. 磁盘阵列是由很多价格较便宜的磁盘,以硬件(RAID卡)或软件(MDADM)形式组合成一个容量巨大的磁盘组,利用多个磁盘组合在一起,提升整个磁盘系统效能.利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上. 磁盘阵列还能利用同位检查(Parity Check)的观念,在数组中任意一个硬盘故障时,仍可读出数据,在数据. 注:RAID可以预