[发明专利]用于服务器集群故障诊断的处理方法、处理装置、及处理设备、用于服务器故障诊断的方法及计算机可读存储介质有效
申请号: | 202110322834.4 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112988444B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 曾令新;林哲伟;严勇;李小龙 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 服务器 集群 故障诊断 处理 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种用于服务器集群故障诊断的处理方法,包括:
响应于所述服务器集群中出现发生灾难性故障的服务器,在所述服务器中执行自动诊断;
在所述自动诊断失败的情况下,在所述服务器输出的实时操作信息中添加诊断失败信息,其中,所述诊断失败信息包括与所述自动诊断失败对应的诊断失败关键字,并且所述诊断失败关键字用于指示所述灾难性故障;
在处理装置中,基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息,并对所述诊断失败信息进行分析;以及
基于分析结果,确定对所述服务器的所述故障的处理方式,
其中,所述自动诊断包括:
对所述服务器的与所述故障相关的多个寄存器进行信息采集,其中,在存在所述多个寄存器中的至少一个寄存器无法完成信息采集的情况下,确定所述自动诊断失败;以及
在对所述多个寄存器完成信息采集后,对所采集的寄存器信息进行分析,以得到第一故障分析结果,其中,在所述第一故障分析结果指示无法确定所述服务器的故障部件或指示所述服务器中存在多个故障部件的情况下,确定所述自动诊断失败,
其中,所述多个寄存器包括用于指示所述服务器的故障部件的错误指向寄存器,其中,对所采集的寄存器信息进行分析包括:
对所采集的寄存器中的所述错误指向寄存器进行分析,以确定所述服务器中先发生异常的处理器;
在基于所述错误指向寄存器无法确定所述先发生异常的处理器的情况下,对所采集的寄存器中的时间戳寄存器进行比较,以确定所述服务器中先发生异常的处理器;
在确定了所述先发生异常的处理器的情况下,基于该处理器的所述错误指向寄存器的值确定该处理器中的具体报错寄存器,其中所述具体报错寄存器用于指示所述服务器的故障部件;以及
在基于所述错误指向寄存器和所述时间戳寄存器均无法确定所述先发生异常的处理器的情况下,或者在基于该处理器的所述错误指向寄存器的值无法确定具体报错寄存器的情况下,对所采集的寄存器进行寄存器遍历,以确定所述先发生异常的处理器中的所述具体报错寄存器;
其中,对所采集的寄存器进行寄存器遍历包括按照预定的优先级对所采集的寄存器进行遍历分析,以确定其中的所述具体报错寄存器。
2.如权利要求1所述的处理方法,其中,基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息包括:
在所述实时操作信息中监控所述诊断失败信息,其中所述监控包括在所述实时操作信息中匹配所述诊断失败关键字;以及
在成功匹配到所述诊断失败关键字后,获取与所述诊断失败关键字对应的诊断失败信息;
其中,包括所述诊断失败信息的所述实时操作信息还用于指示执行故障分析任务的目标对象,其中,对所述诊断失败信息进行分析包括:
基于所述诊断失败信息中的所述诊断失败关键字,创建对所述诊断失败信息所对应的故障的故障分析任务;
基于包括所述诊断失败信息的所述实时操作信息,确定执行故障分析任务的目标对象;
将所述故障分析任务提供至所述执行故障分析任务的目标对象;以及
从所述执行故障分析任务的目标对象获取对所述故障分析任务的所述分析结果。
3.如权利要求2所述的处理方法,其中,基于分析结果,确定对所述服务器的所述故障的处理方式包括:
在所述分析结果指示确定所述服务器中存在要替换的部件的情况下,创建指示所述要替换的部件的部件替换任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322834.4/1.html,转载请声明来源钻瓜专利网。