[发明专利]故障处理方法、装置、电子设备和介质在审
申请号: | 202110937028.8 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113656207A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 楚振江;李建均;宋晓东 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障 处理 方法 装置 电子设备 介质 | ||
1.一种故障处理方法,包括:
获取运行数据,所述运行数据包括来自第一模块的名字服务的数据;
响应于基于所述运行数据确定所述第一模块的第一实例发生故障,确定故障处理事件;以及
对所述第一实例执行所述故障处理事件。
2.根据权利要求1所述的方法,其中,基于所述运行数据确定所述第一实例发生故障包括:
响应于来自所述第一模块的所述名字服务的数据指示所述第一实例的最新状态为异常状态,确定所述异常状态的持续时长;并且
响应于所述持续时长超过第一阈值,确定所述第一实例发生故障。
3.根据权利要求1所述的方法,其中,基于所述运行数据确定所述第一实例发生故障包括:
响应于确定所述第一模块还包括至少一个第二实例,并且来自所述第一模块的所述名字服务的数据指示所述第一实例的状态值与所述至少一个第二实例的状态值的差大于第二阈值,确定所述第一实例发生故障。
4.根据权利要求1-3中任一项所述的方法,其中,所述运行数据还包括来自第二模块的第三实例的报错数据,并且其中,基于所述运行数据确定所述第一实例发生故障包括:
响应于根据网络拓扑数据确定来自所述第三实例的报错数据指示与所述第一实例相关联的异常,确定所述第一实例发生故障。
5.根据权利要求1-3中任一项所述的方法,其中,所述运行数据包括来自多个实例的报错数据,并且其中,基于所述运行数据确定所述第一实例发生故障包括:
响应于与所述第一实例相关联的异常满足以下条件中的至少一个,确定所述第一实例发生故障:多数上游上报和投票决策。
6.根据权利要求1-5中任一项所述的方法,其中,所述运行数据还包括所述第一实例的指标数据,并且其中,基于所述运行数据确定所述第一实例发生故障包括:
响应于所述第一实例的指标数据高于第三阈值,确定所述第一实例发生故障。
7.根据权利要求1-6中任一项所述的方法,其中,获取运行数据包括:
从包括所述第一模块的至少一个模块采集第一运行数据;
响应于所述第一运行数据的值满足初步故障判断条件,获取先前采集的第二运行数据,所述第二运行数据的值不满足所述初步故障判断条件;以及
使用所述第一运行数据和所述第二运行数据作为所述运行数据。
8.根据权利要求1-7中任一项所述的方法,其中,在对所述第一实例执行所述故障处理事件之前,所述方法还包括:
针对不同于所述第一实例的另一实例确定另一故障处理事件;
响应于确定所述故障处理事件与所述另一故障处理事件满足汇总条件,对所述故障处理事件与所述另一故障处理事件进行合并。
9.根据权利要求1-8中任一项所述的方法,其中,所述故障处理事件包括以下中的至少一项:修复实例,直接迁移实例,以及停止服务并迁移实例。
10.一种故障处理装置,包括:
运行数据获取单元,用于获取运行数据,所述运行数据包括来自第一模块的名字服务的数据;
故障事件确定单元,用于响应于基于所述运行数据确定所述第一模块的第一实例发生故障,确定故障处理事件;以及
故障处理单元,用于对所述第一实例执行所述故障处理事件。
11.根据权利要求10所述的装置,其中,所述故障事件确定单元包括:
用于响应于来自所述第一模块的所述名字服务的数据指示所述第一实例的最新状态为异常状态,确定所述异常状态的持续时长的单元;以及
用于响应于所述持续时长超过第一阈值,确定所述第一实例发生故障的单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110937028.8/1.html,转载请声明来源钻瓜专利网。