[发明专利]分布式存储系统的故障处理方法及装置、电子设备有效
| 申请号: | 202010463289.6 | 申请日: | 2020-05-27 |
| 公开(公告)号: | CN111628893B | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 肖永玲;刘名欣;张旭明;王豪迈;胥昕 | 申请(专利权)人: | 北京星辰天合科技股份有限公司 |
| 主分类号: | H04L41/0659 | 分类号: | H04L41/0659;H04L67/1097;G06F11/07 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周春枚 |
| 地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 存储系统 故障 处理 方法 装置 电子设备 | ||
本发明公开了一种分布式存储系统的故障处理方法及装置、电子设备。其中,该方法包括:在确定目标数据中心之间出现网络故障时,利用目标数据中心中的预设数据落盘进程OSD检测是否出现区域级别故障;在确定出现区域级别故障时,对出现区域级别故障的故障域进行分区处理,得到多个网络分区;获取多个网络分区中满足预设筛选条件的目标网络分区,并确定非目标网络分区为故障网络分区;控制目标网络分区中每个数据落盘进程OSD进行切换,以使分布式存储系统正常访问业务,并控制故障网络分区中的数据落盘进程OSD停止访问业务。本发明解决了相关技术中分布式存储双活系统发生脑裂时互相争抢共享资源,容易导致系统混乱、业务不可用的技术问题。
技术领域
本发明涉及分布式存储系统领域,具体而言,涉及一种分布式存储系统的故障处理方法及装置、电子设备。
背景技术
相关技术中,对于分布式存储系统,尤其是存储双活系统,当联系两个节点(或数据中心)的“心跳线”断开时(即两个节点或数据中心断开联系时),本来为一个整体、动作协调的双活系统,就分裂成为两个独立的系统。由于相互失去了联系,都以为是对方出了故障,两个系统上的双活软件像“裂脑人”一样,“本能”地争抢“共享资源”、争抢“应用服务”,这样会产生较为严重的弊端:1)或者共享资源被瓜分、两边“服务”都起不来了;2)或者两边“服务”都起来了,但同时读写“共享存储”,导致数据损坏(如数据库轮询的联机日志出错),两个系统相互争抢共享资源,结果会导致系统混乱,数据损坏。
由于双活系统在发生脑裂时,会带来长时间的存储读写IO HANG住,轻则导致业务性能下降,重则因磁盘IO超时,导致数据库挂起甚至宕机,对生产业务系统造成重大影响。
在分布式双活系统中,脑裂处理主要是在两个数据中心之间网络不通时,避免监控服务频繁选举和脑裂,但是OSD(Object Storage Device,是指负责数据落盘的一个进程)之间会相互检测心跳,当两个数据中心网络不通时,都会向监控服务中心上报对方故障,从而导致大量OSD宕机。同时OSD宕机后会ping一部分up的OSD,如果能ping通1/3会再次up,这样就导致OSD不停down/up。即OSD出现脑裂不停down/up会导致pg down,业务彻底不可用。由于可能降级写,导致数据单副本存在一个站点,即使后续只有一边的OSD down,一边up,也会导致pg down。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种分布式存储系统的故障处理方法及装置、电子设备,以至少解决相关技术中分布式存储双活系统发生脑裂时互相争抢共享资源,容易导致系统混乱、业务不可用的技术问题。
根据本发明实施例的一个方面,提供了一种分布式存储系统的故障处理方法,应用于预设分布式存储系统,所述预设分布式存储系统包括多个数据中心,每个所述数据中心包括多个数据落盘进程OSD,所述故障处理方法包括:在确定目标数据中心之间出现网络故障时,利用所述目标数据中心中的预设数据落盘进程OSD检测是否出现区域级别故障;在确定出现区域级别故障时,对出现区域级别故障的故障域进行分区处理,得到多个网络分区;获取所述多个网络分区中满足预设筛选条件的目标网络分区,并确定非目标网络分区为故障网络分区;控制所述目标网络分区中每个数据落盘进程OSD进行切换,以使分布式存储系统正常访问业务,并控制所述故障网络分区中的数据落盘进程OSD停止访问业务。
可选地,利用所述目标数据中心中的预设数据落盘进程OSD检测是否出现区域级别故障的步骤,包括:利用所述预设数据落盘进程OSD获取其它非目标数据中心对应的区域信息,其中,所述区域信息至少包括:每个数据落盘进程OSD的地址和心跳标识;利用所述预设数据落盘进程OSD基于所述区域信息,依次访问所述区域信息中每个数据落盘进程OSD,得到访问结果;若所述访问结果指示网络故障或者通讯超时,则确定出现区域级别故障。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星辰天合科技股份有限公司,未经北京星辰天合科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010463289.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机主板接口通电拔出保护装置
- 下一篇:风控模型的监控方法及装置





