天津网帮你
当前位置: 天津 > 天津生活服务 > 天津电脑维修 > 开发区电脑维修

华为S存储瘫痪 Oracle数据库恢复解决方案

  • 2016-12-27 10:07:01
  • 123
  • 信息编号:2013121900
  • 服务内容:台式机维修、数据恢复、电脑显示器维修
  • 公司名称:天津科罗德科技发展有限公司
  • 所在区域:天津 > 开发区
  • 详细地址:天津塘沽开发区桐景园底商D座302
  • 联系电话:查看联系方式
  • 联系时,请一定说明在网帮你(93580.com.cn)看到的,谢谢!,请勿向陌生人打款,见面最安全,发现问题请举报。
详细信息
咨询留言
咨询主题:
咨询内容:
     
注意:留言请先登陆,并且已绑定微信,否则无法收发留言!
华为S存储阵列RAID瘫痪,Oracle数据库内有重要数据需要恢复,恢复数据的整个存储空间由GB和G FC的硬盘组成,共12块,其中11块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现1块硬盘故障,热备盘成功激活,在进行同步的过程中又一块硬盘出现故障,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。

一、检测磁盘
由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现一块硬盘有物理故障,其他硬盘没有物理故障。

二、备份数据
考虑到,数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一其他原因导致数据无法再次恢复。使用dd命令或winhex工具将所有磁盘都镜像成文件。

三、故障分析
1、分析故障原因
由于前两个步骤并检测到磁盘有物理故障,由此推断可能是由于某些磁盘读写不稳定和物理故障导致故障发生。因为华为S控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,华为S控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用,之后又新建RAID,有一块硬盘在同步的过程中被损坏,目前初步了解的情况为基于RAID组的LUN分配给linux系统使用,重要数据为Oracle数据库。

2、分析RAID组结构
华为S存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现一块盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。

3、分析RAID组被同步损坏盘
根据上述分析的RAID信息,尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中掉线两块盘并且有一块硬盘数据被同步损坏。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是被同步掉损坏的硬盘,通过北亚自主开发的RAID校验程序对这个条带做校验,因此可以明确被同步损坏盘了。

4、分析RAID组中的LUN信息
由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。因此只需要将LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,LUN的数据MAP做解析,然后根据数据MAP并导出LUN的数据。

四、解析EXT3文件系统

1、解析EXT3文件系统
  由于是使用热备盘虚拟的RAID结构,EXT3文件系统无法正常挂载,所以只能提取oracle数据库文件,利用自主开发的文件系统解析程序对其进行文件系统的解析,导出oracle数据库文件,并把数据库文件移交给数据库工程师进行校验和验证

五、检测Oracle数据库文件及修复

1、检测数据库文件是否完整
      使用Oracle数据库文件检测工具检测每个数据库文件是否完整,发现有错误。再使用北亚自主研发的Oracle数据库检测工具(检验更严格),发现有部分数据库文件和日志文件错误, system 和 sysaux表空间各存在多坏块;3个控制文件都存在坏块许多坏块,控制文件全部损坏;eschoolspace表空间的3个文件的坏块更多,达到个;undotbs02丢失;数据库工程师对此类文件进行修复:

2、修复Oracle数据库
        创建了控制文件,创建undo表空间,启动数据库到mount。system数据文件坏块使得数据库不能open。各种隐含参数也不能绕过system的坏块;搭建数据库环境。使用dmp文件还原数据库。使用3月9号之后的导入,都报错,大约只能导入10G左右的数据,如下图:

六、数据验证
    由用户方配合,启动Oracle数据库,在本地虚拟机安装OA客户端。通过OA客户端对数据记录进行验证,并且用户安排不同部门人员进行远程验证。

七、数据恢复结论
由于故障发生后又重建RAID,导致一块盘的数据被同步损坏,对后期的数据恢复造成了困难。因为热备盘同步了一段时间写入了部分数据,所以使用热备盘里面的数据进行恢复,只能恢复部分数据。
推荐搜索:
数据 RAID 文件 数据库 硬盘 分析 LUN 磁盘 使用 故障 nbsp 检测 一块 Oracle 同步 由于 因此 进行 信息 损坏 系统 导致 解析 恢复 热备盘 存储 坏块 物理 然后 华为 组的 基于 S 其他 MAP 验证 程序 根据 情况 虚拟 发现 开发 自主 数据恢复 中的 修复 出来 system 北亚 只能 阵列 工具 通过 EXT3 RAID5 控制 需要 初步 分布 校验 空间 无法 1 掉线 可用 整个 可能 某些 部分 每个 启动 发生 因为 严格 控制器 不稳定 变的 结构 后又 原始 3个 2 存在 这个 认为是 是否 坏盘 创建 达到 组中 完整 一旦 用户 OA 客户端 分配 1块 所有 现有 正常 列中 出现 导出 上层 过程中 所以 提取 组成 导入 重要 工程师 瘫痪 条带 备份 原因 上述 还原 oracle 以及 日志 要将 针对 这些 错误 编写 只需 相应 并把 对其 交给 利用 挂载 自主研发 检验 有错误 于是 open 本地 ) 虚拟机 安装 并且 记录 配合 左右 下图 ( 方配合 安排 不同 困难 造成了 一段时间 写入 面的 后期 重建 人员 部门 远程 结论 10G 大约 更多 undotbs02 丢失 undo 此类 间的 表空 多坏块 许多 全部 eschoolspace mount 使得 dmp 环境 3月 9号 报错 后的 搭建 绕过 各种 不能 隐含 参数 也不能 sysaux 据分析 dd 再次 命令 镜像 winhex 以防万一 有源 之前 在做 要对 策略 性能 踢出 检查 读写 两个 步骤 由此 推断 一个 11块 剩余 做成 成功 其中 12块 GB 内有 G FC 激活 没有 考虑到 安全性 以后 是因为 从而 收到 级别 允许 尝试 两块 且有 仔细 3 得出 盘中 大小 顺序 走向 同一个 明确 可以 4 组最 新的 坏的 掉损 明显 带上 不一样 判断 配给 linux 了解 目前 极限 掉盘 那么 新建 要数 据为 认为 一样 hot Spare 接着 不太 其它 底层 都是 重构 状态
该栏目的其他信息
赞助商广告

会员还未认证

(189****0062)

Copyright 2022 © 93580.com.cn 网帮你

2022 © 版权所有 红花岗区网帮你信息技术工作室

工信部备案号:黔ICP备2024036985号-2

请使用网帮你微信扫码登录