[发明专利]外部设备的故障检测方法以及装置有效
申请号: | 202310657313.3 | 申请日: | 2023-06-05 |
公开(公告)号: | CN116382968B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 汪浩;王兴隆;李金锋;翟庆伟;杨濠宇 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 王晓玲 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 外部设备 故障 检测 方法 以及 装置 | ||
本申请实施例提供了一种外部设备的故障检测方法以及装置,该方法包括:在目标信息包括第一错误信息的情况下,向外部设备中注入第一错误信息,在目标信息包括第一寄存器数据的情况下,向BIOS发送第一寄存器数据,第一寄存器数据为模拟外部设备的寄存器响应于第二错误信息生成的寄存器数据;获取BIOS上报的第一日志和/或第二日志,第二寄存器数据为寄存器响应于第一错误信息生成的寄存器数据;根据第一日志以及第一错误信息对应的标准寄存器数据,确定外部设备的运行状态,和/或,根据第二日志以及第一寄存器数据对应的标准日志,确定BIOS的运行状态,运行状态为故障状态或者正常状态。
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种外部设备的故障检测方法、装置、计算机可读存储介质、处理器以及服务器的故障检测系统。
背景技术
近年来,在服务器领域,PCIe(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)设备凭借其高速串行点对点双通道高带宽传输,支持主动电源管理、错误报告、端对端的可靠性传输、热插拔以及服务质量(Quality of Service,简称为QoS)等功能特点,得到广泛应用。同时为了应对运行时PCIe设备运行时可能出现的各式各样的可纠正错误或不可纠正错误,PCIe协议规范了IIO( Integrated I/O module)、Aer( PCIe advanced error reporting)以及edpc(downstream port containment)等一系列错误上报与恢复机制,得益于上述完善的机制,诸如UEFI(Unified Extensible FirmwareInterface,统一可扩展固件接口),Coreboot等BIOS解决方案,根据上述机制保存在对应寄存器中的数值,实现了多种多样PCIe故障处理流程,包括但不限于:PCIe可纠正错误阈值,不可纠正错误的处理介质,如OS(Operating System,操作系统)内核或BIOS(Basic InputOutput System,基本输入输出系统),PCIe错误的上报机制,如记录为BMC(BaseboardManagement Controller,基板管理控制器)端SEL(日志),还是OS内核端的elog等。
为了实现并验证这些复杂的PCIe故障处理流程,目前业界最主要的实现方式为使用XDP工具或einj工具进行模拟注错,观察上述寄存器中数值是否正确响应,进一步对错误处理,错误上报,错误恢复的流程进行验证。这种实现依赖于注错工具,测试脚本难以系统集成。同时,在注错完成(或者真实错误产生)后上述寄存器中数值是否正确响应往往由PCIe设备本身或者CPU特性决定,不正确响应的情况下无法有效定位故障点。
发明内容
本申请实施例提供了一种外部设备的故障检测方法、装置、计算机可读存储介质、处理器以及服务器的故障检测系统,以至少解决相关技术中外部设备的故障定位方案无法有效定位故障点的问题。
根据本申请的一个实施例,提供了一种外部设备的故障检测方法,外部设备与BIOS通信连接,所述方法包括:S1,根据目标信息,执行预设操作,其中,在所述目标信息包括第一错误信息的情况下,执行向外部设备中注入所述第一错误信息的所述预设操作,在所述目标信息包括第一寄存器数据的情况下,执行向所述BIOS发送所述第一寄存器数据的所述预设操作,所述第一寄存器数据为模拟所述外部设备的寄存器响应于第二错误信息生成的寄存器数据;S2,获取所述BIOS上报的第一日志和/或第二日志,所述第一日志为所述BIOS对第二寄存器数据进行解析得到的日志,所述第二寄存器数据为所述寄存器响应于所述第一错误信息生成的寄存器数据,所述第二日志为所述BIOS对所述第一寄存器数据进行解析得到的日志;S3,根据所述第一日志以及所述第一错误信息对应的标准寄存器数据,确定所述外部设备的运行状态,和/或,根据所述第二日志以及所述第一寄存器数据对应的标准日志,确定所述BIOS的运行状态,所述运行状态为故障状态或者正常状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310657313.3/2.html,转载请声明来源钻瓜专利网。