[发明专利]分布式存储系统故障恢复方法、装置、终端及存储介质在审
申请号: | 202010095163.8 | 申请日: | 2020-02-14 |
公开(公告)号: | CN111309524A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 任洪亮;李景要 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 张营磊 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 存储系统 故障 恢复 方法 装置 终端 存储 介质 | ||
本申请实施例提供一种分布式存储系统故障恢复方法、装置、终端及存储介质,包括:查找丢失对象所在的置放组群;删除所述置放组群;删除所述置放组群对应的osd进程数据并标记所述osd进程为完成;查看集群状态,并根据所述集群状态校验集群故障恢复结果。本发明对已超出故障域集群,能够在不破坏现有集群条件下,让集群持续对外提供业务,保障循环覆盖写入及某些情况下需要视频的回放场景。
技术领域
本发明设计存储技术领域,具体涉及一种分布式存储系统故障恢复方法、装置、终端及存储介质。
背景技术
分布式存储系统,是一种可靠自主的分布式对象存储,它可以同时提供文件系统存储、对象存储和块存储。在故障域范围内,当节点或硬盘出现故障时,如宕机,掉电等意外发生时,该节点的服务可以被其他备用节点接管,以保障服务正常提供,业务不受影响,此时存储仍可正常提供服务。
如果集群发生磁盘硬件故障无法恢复正常,在更换磁盘的过程中其他节点又出现了一块硬盘故障无法恢复正常。致使集群超出故障域,发生部分数据丢失。当前端业务读取或者修改丢失的对象时,osd发生异常,或返回EIO,致使前端业务中断。此时针对视频业务这种需要在集群中创建出大量的视频文件,同时不断将视频文件循环覆盖写入,在osd发生异常情况下,就无法执行视频的回放。
发明内容
针对现有技术的不足,本发明提供一种分布式存储系统故障恢复方法、装置、终端及存储介质,以解决上述技术问题。
第一方面,本申请实施例提供一种分布式存储系统故障恢复方法,所述方法包括:
查找丢失对象所在的置放组群;
删除所述置放组群;
删除所述置放组群对应的osd进程数据并标记所述osd进程为完成;
查看集群状态,并根据所述集群状态校验集群故障恢复结果。
进一步的,所述删除置放组群,包括:
停止osd服务;
调用icfs-objectstore-tool工具删除所述置放组群;
重新加载系统配置文件;
启动osd服务。
进一步的,所述删除置放组群对应的osd进程数据并标记所述osd进程为完成,包括:
停止osd服务;
调用icfs-objectstore-tool工具删除置放组群对应的osd进程中的数据;
将对应osd进程标记为完成状态;
重新加载系统配置文件;
开启osd服务。
进一步的,所述查看集群状态并根据所述集群状态校验集群故障恢复结果,包括:
调用icfs–s工具查看集群状态;
判断所述集群状态是否为活跃干净状态:
若是,则判定集群故障恢复成功;
若否,则判定集群故障恢复失败。
第二方面,本申请实施例提供一种分布式存储系统故障恢复装置,所述装置包括:
组群查找单元,配置用于查找丢失对象所在的置放组群;
组群删除单元,配置用于删除所述置放组群;
进程删除单元,配置用于删除所述置放组群对应的osd进程数据并标记所述osd进程为完成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010095163.8/2.html,转载请声明来源钻瓜专利网。