服务器数据恢复工程师讲解raid存储结构原理

在所有正式内容开始之前先问一个问题,什么是raid?raid的概念描述在互联网上比比皆是,都未免太过专业了。我想用最简单的原理描述,就是在定义存储方式时允许在一部分数据缺失的情况下不影响全部数据,类似于通讯领域的纠错码。不同的冗余模式形成了不同的RAID类别。我们需要先描述仅具备一个磁盘冗余的RAID模型(思想同RAID3,RAID4,RAID5)。假设现在有3页空白的纸,用来记录一些数字,为了更清晰地记录,我们先将每页白纸划出相同大小的一些表格。再假设有一个可能:这3页纸,特定情况下会有其中某一页丢失。为了在上述设定情况保证这些数字能完整安全的记录下来,我们要设计一些互相牵连的冗余关系。如我们要记录的数字序列是:3、14、28、4、98、88 。我们可以依次在第1页和第2页写要记录的数字,在第3页写上他们的和。这样不管这3页中的哪一页丢失,都可以通过另两页计算另一页的数据来。很显然,即使是超过3页的情况,按上述方式设计记录模式,也可以支持任意一页记录的丢失。这就是raid的数据存储原理了。
好了,下面我们进入正题,如果一个raid阵列同时有3块硬盘掉线了,我们应该怎么处理才能避免数据丢失呢?下面是北亚数据恢复中心服务器数据恢复工程师恢复的一个raid6阵列数据恢复的真实案例:
出现故障需要进行数据恢复的是一组6块750G磁盘的 RAID6磁盘阵列,服务器在正常的运行过程中先后有两块磁盘离线,但维护人员在此情况下依然没有更换磁盘,所以在第三块硬盘离线后raid阵列就理所当然的崩溃了,服务器瘫痪了,业务也因此停滞。想要更换硬盘重新组建阵列是没有问题,但是这组阵列中的所有数据将全部丢失,有由此带来的损失将是巨大的。
服务器管理员对数据进行了分析和恢复后找回了一部分的数据,但是仍有大部分数据丢失无法恢复,于是客户联系到了北京北亚数据恢复中心进行数据恢复操作。客户的服务器是一台web服务器,挂载了6块硬盘,当时3块硬盘处于离线状态。运行了MySQL数据库和一些比较杂乱的其他类型文件。服务器数据恢复工程师首先将服务器内的包括正常硬盘在内的所有硬盘进行了完整镜像,然后将客户服务器归还,剩下的工作就是分析镜像并恢复数据了。
对于服务器出现多块硬盘掉线的情况来说,掉线的硬盘必定有先有后,毕竟同时有3块硬盘掉线的几率是可以忽略不计的。所以针对服务器阵列有多块硬盘掉线的数据恢复原理就是分析硬盘离线的先后顺序,修复最后离线的硬盘故障,然后提取最后离线的硬盘数据,根据raid的存储结构分析出一些基础参数后重组raid即可。在本次数据恢复案例中出现的raid模式是raid阵列,raid6磁盘阵列使用的是双校验模式,第一个校验是普通的oxr也就是异或运算,第二个校验是reed-solmon算法。通常数据恢复时采用第一种校验方法即可回复,但经过服务器数据恢复工程师的分析发现阵列中前两块硬盘很早就已经掉线了,不具备数据恢复的条件,所以第一种校验方式显然已经没有用了。第二种校验方式又比较复杂,市面上也没有成熟的软件或者工具可以使用,所以客户的管理员恢复的数据缺失程度很大,且数据库无法使用。
不过还好北亚数据恢复中心掌握一些reed-solomon算法的核心技术,也有过相应的数据恢复经验,经过多名服务器数据恢复工程师的共同分析终于获得了客户raid阵列中的必要参数并提取出完整的镜像数据。经过客户管理员验证,所有数据成功恢复,数据库可以使用,本次数据恢复圆满成功。
重要数据要做好数据备份工作,做好病毒防护工作,发现数据丢失后一定要保护好故障硬盘。寻找数据恢复公司最好是找一些专业数据恢复公司,可以最大程度保障数据恢复的成功率。

原文地址:https://blog.51cto.com/sun510/2435394

时间: 2024-10-08 05:32:13

服务器数据恢复工程师讲解raid存储结构原理的相关文章

GlusterFS存储结构原理介绍

一.分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源并不直接与本地节点相连,而是分布于计算网络中的一个或者多个节点的计算机上.目前意义上的分布式文件系统大多都是由多个节点计算机构成,结构上是典型的客户机/服务器模式.流行的模式是当客户机需要存储数据时,服务器指引其将数据分散的存储到多个存储节点上,以提供更快的速度,更大的容量及更好的冗余特性. 目前流行的分布式文件系统有许多,如MooseFS.OpenAFS.GoogleFS,具体实现

GlusterFS 存储结构原理介绍

分布式文件系统分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源并不直接与本地节点相连,而是分布于计算网络中的一个或者多个节点的计算机上.目前意义上的分布式文件系统大多都是由多个节点计算机构成,结构上是典型的客户机/服务器模式.流行的模式是当客户机需要存储数据时,服务器指引其将数据分散的存储到多个存储节点上,以提供更快的速度,更大的容量及更好的冗余特性.目前流行的分布式文件系统有许多,如MooseFS.OpenAFS.GoogleFS,具体实现原理我这

服务器磁盘阵列数据恢复方法,raid数据恢复案例

数据恢复故障描述:服务器型号-IBM 3650服务器raid磁盘阵列情况-服务器中共有5块 SAS 300GB 磁盘组成一组RAID5磁盘阵列服务器分区情况介绍-存储划分为一个LUN.3个分区,第一个分区存放的是windows 2003系统,第二个分区用于存储 SQL Server 2010生产库,第三个分区是备份分区. 数据恢复中心初检结果:服务器数据恢复工程师首先对raid磁盘阵列进行初检,发现该服务器中的0号磁盘和4号磁盘出现物理故障离线导致RAID崩溃. 对磁盘阵列进行数据恢复:1.把服

EMC CX4-480服务器数据恢复案例

[用户信息]上海某公司[故障描述]需要进行数据恢复的设备是一台EMC CX4的存储服务器,因为硬盘出现故障导致整个存储阵列瘫痪.整个LUN是由7块1TB的硬盘组成的RAID 5.但服务器共有10块硬盘,其中有3块是以前存储中掉线的硬盘.(服务器存储在使用过程中有硬盘掉线了,但客户只是添加了一块的新的硬盘做rebuild,并没有将掉线的硬盘拔掉,所以就多出了3块).因客户说是存储服务器中有些硬盘有故障才导致存储服务器不可用的,所以初步判断是RAID中有硬盘掉线了.将所有硬盘交给硬件工程师检测硬盘是

服务器数据恢复案例之xfs数据丢失数据恢复方法

今天为大家分享的是一例服务器linux系统下xfs文件系统数据丢失的案例,武汉某公司的服务器出现故障,管理员使用xfs_repair工具修复文件系统,但文件系统修复失败导致服务器中数据全部丢失,经过多方咨询与比较后,客户联系到北京数据恢复公司,由于客户数据涉及保密且恢复难度较大,数据恢复中心从北京总部派出服务器数据恢复工程师前往客户现场进行数据恢复.一.服务器 故障描述客户服务器为linux服务器,连接一台华为存储.客户使用的文件系统为XFS文件系统,在一次机器故障中,客户使用xfs_repai

服务器数据恢复案例_xfs数据丢失的数据恢复过程

简介:太原一家公司的服务器出现故障,服务器是linux服务器,连接了一台某型号的存储,文件系统为xfs文件系统.管理员使用xfs_repair工具试图对文件系统进行修复但修复失败,linux服务器中所有数据因此丢失.管理员在北京的数据恢复公司中选择了我们进行相关咨询,由于客户数据涉密且恢复难度较大,我们从北京总部派出服务器数据恢复工程师前往客户现场进行服务器数据恢复. 服务器数据恢复解决方案:为了不损毁客户丢失数据盘里的数据,数据恢复的第一步必须对客户的原始存储空间开进行镜像备份工作,数据备份完

华为OceanStor S5600T服务器数据恢复方案(带过程图)

一.服务器数据恢复描述 先简单介绍一下服务器故障情况:客户的服务器是一台华为OceanStor S5600T型号,服务器位于北京大兴机房,使用MD1200磁盘柜+RAID卡的方式,服务器共有15块硬盘创建了一组RAID5阵列,分配了两个LUN共80T左右,在系统层面对LUN进行了分区划分,分别为sdc1.sdc2和sdc3三个分区,其中sdc1分区大小为4T,通过LVM扩容的方式,将sdc1分区加入到了root_lv中,剩余的sdc2和sdc3分区格式化为XFS文件系统使用.管理员对服务器进行重

服务器数据恢复成功案例(raid5阵列故障恢复方法)

服务器数据恢复故障环境: 需要进行数据恢复的服务器型号为IBM DS5300存储设备,包含一个存储机头和多个存储扩展柜,创建了2组RAID 5磁盘阵列.发生故障的阵列组为客户服务器中的3号磁盘柜中的raid5阵列,该阵列共有15块成员盘和1块热备硬盘组成.服务器在使用过程中3号磁盘柜中的11号硬盘离线,由16号热备硬盘替换,进行数据同步,在热备硬盘同步过程中,5号硬盘也因为故障离线,导致数据同步失败,RAID 5阵列失效,卷无法挂载访问,服务器瘫痪,急需进行服务器数据恢复. 服务器数据恢复第一步

服务器数据恢复案例探究

一.故障描述 整个服务器的存储空间由6块SAS硬盘组成,其中5块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用.由于RAID5阵列中出现1块硬盘故障,所以服务器存储中的热备盘成功激活,在进行同步的过程中又一块硬盘出现故障,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,服务器崩溃.服务器数据恢复工程师与硬件数据恢复工程师同时对客户存储进行检测发现该服务器存储中的硬盘存在有物理故障.· 二.服务器存储数据恢复故障检测 IBM服务器存储的LUN都是基于RAID组的,因此要进行服务器数据恢复