[发明专利]一种基于BMC的GPU掉卡监控方法在审
申请号: | 202110322723.3 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112988517A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 彭继阳;王万强;王成威 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 徐胭脂 |
地址: | 250101 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bmc gpu 监控 方法 | ||
本发明提供一种基于BMC的GPU掉卡监控方法,包括:BMC建立对GPU的轮询检测;BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;BMC对比两种方式分别获取的在位状态信息;BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。本发明直接通过BMC完成监控,无需额外添加检测设备和串口工具,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
技术领域
本发明属于GPU管理技术领域,具体涉及名称替一种基于BMC的GPU掉卡监控方法。
背景技术
随着云计算、大数据、人工智能的广泛应用,对服务器的计算能力提出了更高的挑战,尤其是在针对图像进行计算处理方面,GPU作为服务器的外围核心处理单元,掌握图像计算和处理的重要功能,在工作过程中必须与CPU进行实时交互,故关于GPU掉电的监控和上报极其重要,但是服务器空间有限,若格外添加检测设备则会造成空间拥挤和成本上升。
发明内容
针对现有技术的上述不足,本发明提供一种基于BMC的GPU掉卡监控方法,以解决上述技术问题。
第一方面,本发明提供一种基于BMC的GPU掉卡监控方法,包括:
BMC建立对GPU的轮询检测;
BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
BMC对比两种方式分别获取的在位状态信息;
BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
进一步的,所述在位状态信息包括在位数量。
进一步的,所述BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息,包括:
BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;
BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量。
进一步的,所述BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件,包括:
判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡。
进一步的,所述掉卡管理事件包括:在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯。
进一步的,所述方法还包括:
当服务器系统重启或关机时,BMC停止掉卡管理事件,并启动新一轮的掉卡检测。
进一步的,所述方法还包括:
设置轮询检测的时间间隔,BMC按照设定的时间间隔执行两种方式获取GPU的在位状态信息。
进一步的,所述可编程器件为FPGA。
本发明的有益效果在于,
本发明提供的一种基于BMC的GPU掉卡监控方法,直接通过BMC完成监控,无需额外添加检测设备和串口工具,BMC将直接命令获取的GPU的在位状态信息和BIOS上报的在位状态信息进行对比,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322723.3/2.html,转载请声明来源钻瓜专利网。