[发明专利]一种GPU故障诊断系统、诊断方法、设备及可读存储介质在审
| 申请号: | 202111007288.1 | 申请日: | 2021-08-30 |
| 公开(公告)号: | CN113777476A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 张健;陈彬;刘海洲 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G01R31/30 | 分类号: | G01R31/30 |
| 代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 gpu 故障诊断 系统 诊断 方法 设备 可读 存储 介质 | ||
本发明公开了一种GPU故障诊断系统、诊断方法、设备及可读存储介质,诊断系统包括,一键日志收集模块:用于实现一键收集系统带内日志、GPU故障日志及GPU运行状态指标文件;故障日志巡检模块:对GPU日志进行巡检,输出故障信息并给出处理建议;GPU实时状态检测模块:用于一键检测GPU实时运行状态,自动发现故障并给出处理建议;GPU压力测试模块:用于GPU疑难故障的诊断;GPU驱动一键更换模块:用于GPU驱动版本的一键更换;日志模块:用于日志的输出及保存;GPU驱动模块,用于保障GPU的运行。可实现一键日志收集、故障日志巡检、GPU实时状态检测、GPU压力测试、GPU驱动一键更换及提供处理建议等功能,便于工程师现场定位故障及收集日志后反馈后台处理。
技术领域
本发明涉及GPU故障诊断技术领域,尤其涉及一种GPU故障诊断系统、诊断方法、设备及可读存储介质。
背景技术
目前人工智能相关领域发展迅速,AI服务器市场保有量激增,GPU(图形处理器,英语:Graphics Processing Unit,缩写:GPU))的快速故障诊断也成为服务器售后服务中重要的一环,目前GPU故障诊断存在以下问题:
现场运维人员/第三方工程师技术水平参差不齐,需要长时间的培训及实践才能胜任GPU故障诊断工作,存在GPU故障诊断花费时间长、故障判断准确度低等问题。
客户不允许登录OS后进行GPU故障排查,根据带外日志(通过服务器BMC管理口获取到的监控日志)定位GPU故障异常困难。
现有技术中,故障判断的方法有:根据服务器带外日志进行GPU故障判断;根据客户提供的带内日志(服务器OS下的日志)进行GPU故障判断;根据客户报修描述进行GPU故障判断。
根据服务器带外日志进行GPU故障判断时,因为目前服务器带外日志无法有效监控GPU运行状态,故障诊断准确率低。
根据客户提供的带内日志进行GPU故障判断时,因客户技术水平差异,客户提供的带内日志存在日志收集不全的情况,无法准确定位GPU故障。
根据客户报修描述进行GPU故障判断时,不同客户对GPU故障描述方式不统一,且描述准确性差,对故障定位带来极大困扰。
另外,多数客户不允许登录OS进行故障排查、不提供带内日志。现场工程师技术水平参差不齐、GPU故障诊断方法及工具使用复杂。
发明内容
本发明的目的就是为了解决上述问题,提供一种GPU故障诊断系统、诊断方法、设备及可读存储介质,可实现一键日志收集、故障日志巡检、GPU实时状态检测、GPU压力测试、GPU驱动一键更换及提供处理建议等功能,便于工程师现场定位故障及收集日志后反馈后台处理。
为了实现上述目的,本发明采用如下技术方案:
一种GPU故障诊断系统,包括:
一键日志收集模块:用于实现一键收集系统带内日志、GPU故障日志及GPU运行状态指标文件;
故障日志巡检模块:对GPU日志进行巡检,输出故障信息并给出处理建议;
GPU实时状态检测模块:用于一键检测GPU实时运行状态,自动发现故障并给出处理建议;
GPU压力测试模块:用于GPU疑难故障的诊断;
GPU驱动一键更换模块:用于GPU驱动版本的一键更换;
GPU驱动模块,用于保障GPU的运行。
还包括辅助引导模块,为一键日志收集模块、故障日志巡检模块、GPU实时状态检测模块或GPU压力测试模块定制引导菜单及说明,并根据检测到的故障给出处理建议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111007288.1/2.html,转载请声明来源钻瓜专利网。





