[发明专利]一种故障处理方法、相关装置及计算机在审
申请号: | 201710454179.1 | 申请日: | 2014-06-24 |
公开(公告)号: | CN107357671A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 宋刚 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 故障 处理 方法 相关 装置 计算机 | ||
技术领域
本发明实施例涉及计算机技术,特别涉及一种故障处理方法、相关装置及计算机。
背景技术
随着信息化技术的大规模发展,计算机普遍应用于各个领域。计算机的故障通常可包括软件故障、硬件故障、操作(配置)故障和其他故障。由于硬件故障具有复现难、主要靠人工经验进行判断、发生错误时问题定位难、需要多次插拔/更换等特点,因此最难以处理的一般是硬件故障,例如内存、处理器、输入输出(IO)设备等产生的故障。
通常情况下,硬件故障将导致计算机产生不可纠正错误(Uncorrectable error),不可纠正错误不仅可能导致计算机业务的中断,降低计算机可运行时间,甚至可能导致宕机事件。现有技术中,对计算机故障进行处理主要通过以下方法:当系统中出现不可纠正错误时,处理器对错误数据进行记录并通知操作系统(Operating System,OS);OS在收到通知后抓取处理器记录的错误数据并打印出来,以供用户对故障进行分析、定位和恢复。
现有技术中需要基于OS实现错误数据的抓取。然而,一旦计算机中出现严重的不可纠正错误导致计算机死机(在本发明中,计算机死机是指计算机出现黑屏、计算机的鼠标或键盘等输入设备无法输入并且计算机的处理器无法运行计算机指令),OS将不能继续工作,无法抓取计算机中的错误数据,导致难以对故障进行分析、处理和恢复。
发明内容
本发明实施例提出了一种故障处理方法、相关装置及计算机,能够在计算机中出现严重的不可纠正错误导致计算机死机后,获取计算机中的错误数据。
第一方面,本发明实施例提出了一种计算机,包括处理器和基板管理控制器,所述基板管理控制器用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;
所述处理器用于接收所述读请求消息,并向所述基板管理控制器发送读响应消息;
所述基板管理控制器用于接收所述处理器返回的所述读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
结合第一方面,在第一种可能的实现方式中,所述处理器还用于获取所述第一错误数据,并记录所述第一错误数据;
则所述基板管理控制器用于确定所述计算机死机具体为:所述基板管理控制器用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则所述基板管理控制器用于确定所述计算机死机。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带所述第一错误数据时,所述基板管理器用于从所述读响应消息中获得所述处理器记录的所述第一错误数据。
结合第一方面或第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带读失败指示时,所述基板管理控制器用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;所述基板管理控制器用于接收所述处理器发送的所述第一错误数据。
结合第一方面或第一方面的第一至第三任一可能的实现方式,在第四种可能的实现方式中,所述基板管理控制器还用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述基板管理控制器还用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述基板管理控制器在确定所述计算机死机之前,还用于接收所述处理器发送的第二错误数据,并根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710454179.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于加密设备特征信息的配置数据自动校验方法
- 下一篇:一种数据处理方法及装置