[发明专利]一种PCIe故障自修复方法、装置、设备及可读存储介质有效
| 申请号: | 202110474250.9 | 申请日: | 2021-04-29 |
| 公开(公告)号: | CN113176963B | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 王培培 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
| 主分类号: | G06F11/07 | 分类号: | G06F11/07 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春辉 |
| 地址: | 250001 山东省济南市高新区*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 pcie 故障 修复 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种PCIe故障自修复方法,该方法在系统中PCIe链路运行时,通过获取PCIe链路中的CE报错次数和UCE报错次数实现对于系统运行状态监控,若CE报错次数达到对应的报错阈值,或,UCE报错次数达到对应的报错阈值时,从系统中移除报错设备,以避免报错设备对于系统运行持续带来的不利影响,并根据预先存储的服务器中所有PCIe设备的可调优参数修改报错设备的SI参数寄存器,自动优化报错设备SI参数,实现PCIe故障修复后重新接入系统,实现故障自修复,从而减少运维人员和服务器客服人员参与更换设备所带来的实现成本。本发明还公开了一种PCIe故障自修复装置、设备及可读存储介质,具有相应的技术效果。
技术领域
本发明涉及设备运维技术领域,特别是涉及一种PCIe故障自修复方法、装置、设备及可读存储介质。
背景技术
PCIe(peripheral component interconnect express,一种高速串行计算机扩展总线标准)设备在服务器中是必不可少的组成部分,服务器的性能,计算,功能等都与PCIe设备有关,PCIe设备还涉及服务器的计算(如GPU,FPGA),存储(如SAS HBA,NVME SSD),网络(NIC)等,起着重要的作用。
在使用过程中,随着设备的长时间运行及设备的老化,以及复杂PCIe链路中多设备的共同影响,可能会出现PCIe报错。目前系统运行后,服务器系统会有自动报错机制,系统中出现PCIe报错时,一些小问题可以自动修复,但是大部分问题系统无法自动修复,会导致系统运行受阻,甚至会导致机器宕机或者重启,导致设备无法正常运行;而且,PCIe报错大部分是由运维人员人工进行故障判断以及故障排查的,导致运维人员人力的消耗及设备更换带来的成本增加。
综上所述,如何降低PCIe报错对系统运行的影响,同时降低PCIe运维成本,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种PCIe故障自修复方法、装置、设备及可读存储介质,可以降低PCIe报错对系统运行的影响,同时降低PCIe运维成本。
为解决上述技术问题,本发明提供如下技术方案:
一种PCIe故障自修复方法,包括:
当PCIe链路根据默认SI参数进行数据处理时,获取所述PCIe链路中的CE报错次数和UCE报错次数;其中,所述默认SI参数为系统启动后自动训练生成的SI参数;
判断所述CE报错次数和所述UCE报错次数是否达到对应的报错阈值;
若所述CE报错次数达到对应的报错阈值,或,所述UCE报错次数达到对应的报错阈值,则定位报错设备,并移除所述报错设备;
读取预先存储的PCIe调优参数中所述报错设备对应的待调用参数,作为目标参数;
将所述报错设备的默认SI参数替换为所述目标参数;
将所述报错设备作为正常设备接入系统。
可选地,所述当PCIe链路根据默认SI参数进行数据处理时,获取所述PCIe链路中的CE报错次数和UCE报错次数,包括:
当PCIe链路根据默认SI参数进行数据处理时,轮询PCIE设备的CE寄存器和UCE寄存器;
将所述CE寄存器中记录的receiver error count计数作为所述CE报错次数,将所述UCE寄存器中记录的receiver error count计数作为所述UCE报错次数。
可选地,所述读取预先存储的PCIe调优参数中所述报错设备对应的待调用参数,作为目标参数,包括:
读取BMC EEPROM中存放的PCIe调优参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110474250.9/2.html,转载请声明来源钻瓜专利网。





