您所在的位置:首页 > 成功案例 > RAID数据恢复

北京某公司存储崩溃 raid数据恢复成功案例

最新动态来源:本站原创点击数:42更新时间:2018/6/4

Riad数据恢复故障概述
北京某公司的一台存储挂载了raid5磁盘阵列,正常使用中存储忽然崩溃,经管理员检查发现raid5阵列中有两块硬盘离线,阵列中共两块热备盘其中一块热备盘激活失败,raid5阵列瘫痪导致存储无法使用。需要进行基于raid5磁盘阵列的数据恢复操作。

Raid5阵列数据恢复检测:
硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道。该存储上层共一个lun用于sun小机使用,ZFS文件系统。

Raid5阵列数据恢复过程
1、备份数据
按照数据恢复流程对所有磁盘进行全盘镜像,工程师使用数据恢复工具将所有磁盘都镜像成文件,然后将备份数据将520字节的扇区转换为512字节扇区,以方便后期数据恢复操作。

2、分析RAID组结构
根据磁盘阵列的工作模式我们知道LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。工程师对所有磁盘进行分析发现8号盘的Hot Spare替换了5号盘的坏盘。但另一块热备盘并未激活,所以数据未同步。继续分析其他10块硬盘,分析数据在硬盘中分布的规律,RAID条带的大小,以及每块磁盘的顺序。

3、分析RAID组掉线盘
根据上述分析的RAID信息,仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,工程师使用一款自用的RAID校验程序对这个条带进行校验发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。

4、分析RAID组中的LUN信息并解释文件系统
通过重组的raid分析lun的分配情况和数据块,使用数据恢复软件进行lun所有数据,然后对导出的lun进行解析文件系统操作。正常情况下此时即可恢复数据。但解析文件系统报错,工程师对文件进行手动检查发现部分元文件损坏导致了系统无法自动解析。
上述分析明确了ZFS文件系统因存储瘫痪导致部分文件系统元文件损坏,因此需要对这些损坏的文件系统元文件做修复,才能正常解析ZFS文件系统。分析损坏的元文件发现,因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证ZFS文件系统能够正常解析。

5、导出raid阵列所有数据
利用程序对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。导出,数据恢复成功。

北京北亚数据恢复中心:4006 505 646