一起数据灾难谈RAID0+1及RAID1+0

近日,遇到一例4块盘SCSI RAID0+1的数据恢复,由4块36G SCSI组成。客户称是做了两组RAID1。出故障后,RAID状态里3块盘OFFLINE。

按我的理解,这个应该是两组逻辑盘(分别做的RAID1),那即使是3块盘OFFLINE,也应该有一组逻辑盘是可以正常工作的。但客户用装在别的硬盘上的WINDOWS访问此阵列时,也无法识别阵列的逻辑盘。这样的话,很多就解释不通了,只能仔细分析了。

拿下硬盘,单独接在SCSI适配器上,进入系统,无异常,可以识别出4块物理硬盘。分析,无明显RAID信息区域,之后,对4块盘做比较,结论是1、3号盘及2、4号盘每组都有相同性,但后面有大量不一致数据。1号盘及2号盘里有分区表,每个分区表里的描述都大约指出原逻辑盘分区总和大约68G。据此,可知有以下三种情况:

1、两组RAID0,但1、3号及2、4号均有部分完全相同的数据,应该可以排除。

2、RAID1+0(即两两做RAID1,再做RAID0,这种安全级别高,客户是集成商做的,可能性最大),一段时间内,两组RAID1中先后都有一块硬盘离线(此后就相当于RAID0,再不能提供任何冗余)。再后来,又有一块硬盘离线,系统崩溃。这种情况非常符合RAID里的表现。

3、RAID0+1(即两两做RAID0,再做RAID1,这种不太好,推断可能性不大)

根据分析后,发现除1、3组成的RAID,无任何错误,认为应该是对了。重组数据。直接写回RAID,系统正常可以启动。文件访问也正常。

本来以为已经完美解决了。结果很短的时间内收到客户电话,称数据严重滞后,是两年前的东西。

一细想,大悟。

真实的情况应该是:用户做了RAID0+1,结果组成RAID1中的其中一组RAID0中有一块盘离线(应该为1或3),导致整个RAID0离线(两块离线了),之后一直以单RAID0的方式工作(想起来竟然两年有余,汗!),直到最近,剩下的一组RAID0中有一块盘离线,RAID彻底瘫痪。用户使用的RAID卡为ADAPTEC的0通道RAID卡,比较低端,无法安全缓冲数据,最后离线时,因数据部分未写入等原因导致文件系统一致性有问题。

重新组织3及5号盘,修正错误,数据100%恢复成功。

此案例中突显RAID0+1及RAID1+0的安全差别,细细说说吧。

RAID0+1:

结构为,两块以上(含两块)硬盘先做条带(RAID0),组成相同的两组一级逻辑盘。再将两组逻辑盘做镜像(RAID1)。

如下图:

RAID0+1的冗余性(安全性):只要有一块盘出错,它所在的RAID0就会整体离线,只能靠最外层的RAID1的冗余来支撑。实际上,只能允许一块盘出错,这样如果在4块以上的硬盘盘阵中,安全性实际会差得多。

利用率:1/2

效率:读与写均可以实现N/2(N为硬盘总数)的理论带宽

实现:容易,控制器无需强劲处理能力,通常也无需大缓冲。

RAID1+0:

结构为,两块以上硬盘先做镜像(RAID1),组成相同的两组或两组以上一级逻辑盘。再将两组(或两组以上)逻辑盘做条带(RAID0)。

如下图:

RAID1+0的冗余性(安全性):只要有一块盘出错,它所在的RAID1中不会有问题,所以每组RAID1中都允许有一块盘离线。安全性:损坏两块盘崩溃的机会只有2/(N-1)。

利用率:1/2

效率:读与写均可以实现N/2(N为硬盘总数)的理论带宽

实现:容易,控制器无需强劲处理能力,通常也无需大缓冲。

上述分析,可以明显看到,RAID1+0比RAID0+1的安全级别会高很多,其他参数却相同。所以,需要安全级别高的场合下,一定要选择RAID1+0。实际上,RAID0+1是华而不实的结构,很少会有它的适用场合。本文提及的案例,如果用户使用的是RAID1+0,出故障的概率便会低得多了。

时间: 2024-08-02 10:57:47

一起数据灾难谈RAID0+1及RAID1+0的相关文章

天下数据详解Raid0、Raid0+1、Raid1、Raid5四者的区别

通过上篇文章<服务器为什么要做磁盘阵列?>的详细介绍,相信大家对raid冗余磁盘阵列都有了基础的认识.而当大家租用服务器时,挑选配置却又发现raid还有很多种类,其中常见的有RAID0.RAID0+1.RAID1.RAID5这四种.那么它们四者之间的区别又是什么呢? 通过下面这张形象的图片,生动的展现出它们之间的区别! Standalone最普遍的单磁盘储存方式. Cluster集群储存是通过将数据分布到集群中各节点的存储方式,提供单一的使用接口与界面,使用户可以方便地对所有数据进行统一使用与

Raid0、Raid0+1、Raid1、Raid5四者的区别

RAID,可以把硬盘整合成一个大磁盘,还可以在大磁盘上再分区,放数据还有一个大功能,多块盘放在一起可以有冗余(备份)RAID整合方式有很多,常用的:0 1 5 10 Raid0Raid0是所有raid中存储性能最强的阵列形式.其工作原理就是在多个磁盘上分散存取连续的数据,这样,当需要存取数据是多个磁盘可以并排执行,每个磁盘执行属于它自己的那部分数据请求,显著提高磁盘整体存取性能.但是不具备容错能力,适用于低成本.低可靠性的台式系统. 在这里插入图片描述 Raid1 又称镜像盘,把一个磁盘的数据镜

由一次惨痛的数据灾难引发的彻底思考

概述 前一段时间硬盘突然崩了,这几乎要让我所有的艰辛努力都毁于一旦,因为我所有的劳动成果都存储在硬盘中. 事实上,我之前的数据备份与安全工作已经做的不错了,对数据经常进行备份,而且分散存储,并进行了加密,由于一直以来数据并没有发生过丢失,久而久之,数据备份的频率越来越低,最近一次备份在本地磁盘已经是十几天之前了,听上去还不错,但是整个硬盘都报废了,最近一次备份到网盘已经是两个月前的事情了,听上去还不算太坏,但雪上加霜的是,由于担心通过压缩加密的备份不安全的问题,在这次数据灾难前已经删除了所有存储

7种方法教你避免数据灾难

无论是个人还是企业,数据丢失货损遭到损坏都是在所难免的.比方说,一个遭到破坏的Outlook数据库可以将你的电子邮件档案文件和联系人列表搞得一塌糊涂;一个意外删除的文件夹可以将至关重要的企业文档资料彻底清除;一次硬盘故障能够将MP3或者相片库一扫而空.而这种潜在的灾难其实完全可以避免,只要你事先做好了数据备份! 其实吧,这数据就和金钱一样.财务顾问都建议人们保持多变的投资组合,其观念就是'不要把鸡蛋放在同一个篮子里'.同样,这种观念也适应于备份:通过把数据备份在多个地方,使数据得到多重保护.所以

基于UNIX系统,逻辑故障的数据灾难解读

一.故障描述:基于UNIX系统,逻辑故障的数据灾难故障表现:1.存储结构出错2.数据删除3.文件系统格式化4.其它原因数据丢失 二.解决方案◆检测1.检测是否存在硬件故障,如硬件故障,转硬件处理2.以只读方式检测故障表现是否与用户描述相同◆恢复1.备份:以只读方式对故障存储做完整镜像(参考附录)2.在备份中进行数据分析及恢复操作.3.通常,恢复后的数据会暂存在另一个存储体上◆验收对恢复好的数据进行验证,确认其正确性.如确认,交费–>移交原介质及已恢复数据 –>出具发票(收据)及报告.如无法认可

细数基于ORACLE 数据库环境的常见数据灾难解决方式

一.故障描述:基于ORACLE 数据库环境的常见数据灾难故障表现:1.ORACLE数据库无法启动或无法正常工作.2.ORACLE ASM存储破坏.3.ORACLE数据文件丢失.4.ORACLE数据文件部分损坏. 5.ORACLE DUMP文件损坏. 二.解决方案◆检测 1.检测是否存在硬件故障,如硬件故障,转硬件处理2.以只读方式检测故障表现是否与用户描述相同◆恢复1.备份:以只读方式对故障存储做完整镜像(参考附录)2.在备份中进行数据分析及恢复操作.3.通常,恢复后的数据会暂存在另一个存储体上

磁盘管理 ——RAID1+0卷+LVM

磁盘管理 --RAID1+0卷+LVM 准备工作 以两块磁盘为例sdb和sdc,每块硬盘分别建立三个主分区 sdb1      1G,         sdb2       1G,         sdb3       1G sdc1      1G,         sdc2       1G,         sdc3       1G 第一步:分别将sdb1和sdc1.sdb2和sdc2.sdb3和sdc3创建成RAID1卷md1.md2.md3 第二步:再将md1.md2.md3制作成R

Raid1+0磁盘阵列创建的步骤

接下来为大家为介绍raid1+0磁盘阵列的创建过程,首先创建四块备用磁盘 然后选择添加硬件的类型,选择硬盘,点击下一步然后选择磁盘类型,选择推荐就可以了然后选择创建新的虚拟磁盘,点击下一步选择磁盘大小,这里因为是做实验直接默认20G,下一步这里直接点击完成,第一块硬盘就创建好了按照如上图方法创建另外的三个磁盘 创建好四个磁盘后我们在查看下系统是否能识别我们创建的硬盘, 可以看到这里只有一个,我们创建的并没有识别,需要重启系统才可以,重启系统输入init 6 等系统重启好之后,再查看磁盘,就会发现

大数据内功修炼到企业实战2.0》全新完整版!!!&#160; 无加密,免费送!!!

                                           <大数据内功修炼到企业实战2.0>全新完整版!!!  无加密,免费送!!!  还有送:项目实战视频.机器学习等持续更新课程 牢记接头暗号:    大数据培训哪家强?老司机推荐十八掌!    神回复:老子推荐十八掌!!!