[发明专利]故障节点隔离方法及集群系统有效
申请号: | 201711160951.5 | 申请日: | 2017-11-20 |
公开(公告)号: | CN107947976B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 葛长伟 | 申请(专利权)人: | 新华三云计算技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王术兰 |
地址: | 610000 四川省成都市高新区天华二路2*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障 节点 隔离 方法 集群 系统 | ||
1.一种故障节点隔离方法,其特征在于,应用于集群系统,所述方法包括:
所述集群系统的各个节点检测所述集群系统中是否存在无法访问存储在共享存储上的集群文件系统的故障节点;
当存在故障节点时,所述故障节点向所述集群系统中的正常节点发送故障节点不能访问的集群文件系统的信息;
所述故障节点将所述故障节点不能访问的集群文件系统进行解挂载,其中,在解挂载过程中,需要被解挂载集群文件系统中所有加锁对象的主节点对加锁对象进行解锁;
所述故障节点将所述故障节点不能访问的集群文件系统进行解挂载的步骤,包括:
将所述集群系统中的节点分别划分到故障域和工作域,其中,每个故障域包括一个节点,所述工作域包括除故障域中节点之外的其他节点;
所述工作域和故障域中的节点分别进行分布式锁管理处理。
2.如权利要求1所述的方法,其特征在于,所述集群系统中节点上同时挂载的集群文件系统包括集群成员管理位图,集群成员管理位图的比特位与能访问该集群文件系统的各个节点对应,在所述故障节点向所述集群系统中的正常节点发送故障节点不能访问的集群文件系统的信息之后,所述方法还包括:
所述正常节点在接收到所述信息后,将所述故障节点不能访问的集群文件系统的集群成员管理位图里与故障节点对应的比特位清零。
3.如权利要求1所述的方法,其特征在于,所述集群系统的各个节点检测所述集群系统中是否存在无法访问存储在共享存储上的集群文件系统的故障节点的步骤,包括:
每个节点检测磁盘心跳能否在预设时间阈值内成功写入该节点在存储区域的指定心跳区域,若能成功写入,判定该节点为正常节点,若不能成功写入,判定该节点为故障节点。
4.如权利要求2所述的方法,其特征在于,在将所述故障节点不能访问的集群文件系统的集群成员管理位图里与故障节点对应的比特位清零之后,所述方法还包括:
所述正常节点发送消息到故障节点查询故障节点是否已经开始对所述故障节点不能访问的集群文件系统解挂载;
在查询到故障节点还未开始解挂载时,所述正常节点通知所述故障节点进行解挂载处理。
5.如权利要求1-4中任意一项所述的方法,其特征在于,所述工作域和故障域中的节点分别进行分布式锁管理处理的步骤,包括:
所述工作域的节点确定所述故障节点不能访问的集群文件系统中加锁对象的主节点;
所述故障域中的节点禁用该节点对所述故障节点不能访问的集群文件系统中加锁对象的修改权限,并将所述故障节点不能访问的集群文件系统中加锁对象的主节点设置为所述故障域中的节点。
6.如权利要求1-4中任意一项所述的方法,其特征在于,将所述集群系统中的节点分别划分到故障域和工作域,包括:
所述集群系统中各个节点通过读取其他节点的磁盘心跳将各节点划分到对应的故障域或工作域,当某一节点的磁盘心跳无法被其他节点读取时,将该节点划分到故障域,反之将该节点划分到工作域;和
所述集群系统中各个节点通过节点之间的管理网络通信状况将各节点划分到对应的故障域或工作域,当某一节点在一预设时长内不能和其他节点通信,将该节点划分到故障域,反之将该节点划分到工作域。
7.如权利要求4所述的方法,其特征在于,所述集群文件系统包括一用于表示集群文件系统解挂载状态的标识,所述正常节点发送消息到故障节点查询故障节点是否已经开始对所述故障节点不能访问的集群文件系统解挂载,包括:
查询所述故障节点不能访问的集群文件系统中的标识是否为解挂载状态或即将解挂载状态;
若是,则判定故障节点已经开始解挂载;
若否,则判定故障节点还未开始解挂载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三云计算技术有限公司,未经新华三云计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711160951.5/1.html,转载请声明来源钻瓜专利网。