[发明专利]一种服务器PCIe设备定位故障原因的系统及方法在审
申请号: | 201811433513.6 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109614259A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 孙一心 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 王汝银 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 配置空间寄存器 服务器 定位故障原因 读取 反馈 链路 服务器启动 监控单元 数据通信 信息读取 自动排列 自动筛选 分析仪 报错 存取 分析 发送 | ||
本发明提出了一种服务器PCIe设备定位故障原因的系统和方法,服务器启动时,首先BIOS单元通过PECI链路读取存取在CPU单元的PCIe设备配置空间寄存器,然后BMC单元通过KCS链路获取BIOS单元读取到的PCIe设备配置空间寄存器,最后带外监控单元通过IMPI与BMC单元数据通信将PCIe设备配置空间寄存器中的信息读取出来;服务器宕机时,首先向指定的PCIe设备的BMC发送4K个IMPI命令,然后接收得到的4K个反馈值;最后对接收到的4K个反馈值自动筛选并根据地址自动排列;接收到的4K个反馈值为PCIe设备配置空间寄存器中的信息。采用本发明,可以在宕机时,通过对PCIe设备配置空间寄存器中的信息进行分析,找到PCIe设备报错的原因,无需接入PCIe协议分析仪或者分析其它log。
技术领域
本发明涉及服务器PCIe设备故障领域,具体提供了一种服务器PCIe设备定位故障原因的系统及方法。
背景技术
PCIe设备是服务器最常见的外设接口之一,大量的部件包括网卡、Raid卡、FPGA卡、GPU卡、NVME硬盘等等都是通过PCIe接口作为外设设备应用在服务器系统当中。当前PCIe设备已经经历了Gen1、Gen2、Gen3三代接口,Gen4也即将大量量产应用。目前最常见的设备是应用PCIe Gen3接口,接口速率高达8Gb/s,接口速率快,对系统兼容性和稳定性要求很高。如何保证PCIe设备在服务器系统中的稳定性和可用性是服务器系统设计的难点之一。PCIe设备在系统中的故障包括uncorrectable fatal error、correctable non-fatalerror和correctable error三类。当发生correctable non-fatal error和correctableerror时,服务器系统往往有性能降低等现象,而且在某些场景下,这两类错误和uncorrectable fatal error是有联系的;当出现uncorrectable fatal error时,服务器系统往往会发生宕机和重启等现象,验证影响线上业务的运行。
现在最常见的PCIe设备的debug方案是借助于PCIe协议分析仪抓取PCIe设备的trace进行分析,这种分析方法非常彻底,但是存在很多限制,第一,PCIe协议分析仪设备昂贵。第二,PCIe协议分析仪每次抓取的设备有限,当发生小概率故障时,往往无法恰好接入故障设备,所以这也是一个应用受限的地方。另外,对于PCIe设备定位故障,还可以通过分析OS message进行,也存在很多限制,第一,报错种类有限。第二,往往需要修改kernel,增加相关打印。第三,分析占用时间较长。此外,最需要快速定位故障的是PCIe设备的Uncorrectable fatal error,但是发生这种错误时,服务器系统往往伴随着宕机等现象,也不可能实时的抓取出来trace和message,那么就需要在宕机状态下找出服务器系统宕机原因的方法。
发明内容
针对以上缺点,本发明提出了一种服务器PCIe设备定位故障原因的系统和方法,可以解决在服务器系统宕机的情况下,找到PCIe设备报错的原因。
本发明实施例提供了一种服务器PCIe设备定位故障原因的系统,包括
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于通过PECI链路读取存取在CPU单元的PCIe设备配置空间寄存器;
BMC单元:用于通过KCS链路获取BIOS单元通过PECI链路读取存取在CPU单元的PCIe设备配置空间寄存器;
带外监控单元:用于在服务器系统启动时,通过IMPI与BMC单元数据通信将PCIe设备配置空间寄存器中的信息读取出来,同时在服务器系统宕机时,通过IMPI与BMC单元数据通信,将在服务器系统启动时的PCIe设备配置空间寄存器的信息读取出来;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811433513.6/2.html,转载请声明来源钻瓜专利网。