[发明专利]预测GPU故障的方法和装置有效
申请号: | 201510088768.3 | 申请日: | 2015-02-26 |
公开(公告)号: | CN105988918B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 费辉 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇;刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种预测GPU故障的方法和装置,属于计算机通信技术领域。所述方法包括:在GPU的节点部署守护进程;从所述GPU的所述节点中提取所述GPU的状态参数;将所述GPU的所述状态参数与状态平均故障参数进行比较,根据比较结果,确定所述GPU是否将产生故障;其中,所述状态平均故障参数通过预置的统计模型统计得到。所述装置包括:部署模块、提取模块和处理模块。本发明在GPU产生故障之前,确定GPU是否将产生故障,可以提前对GPU的故障进行预测,可以在GPU产生故障前,提前更换GPU或将GPU的程序迁移到其他GPU上去执行,不会影响业务的正常进行。 | ||
搜索关键词: | 预测 gpu 故障 方法 装置 | ||
【主权项】:
1.一种预测GPU故障的方法,其特征在于,所述方法包括:在GPU的节点部署守护进程;其中,所述守护进程按照固定周期采集所述节点对应的所述GPU的状态参数,并在GPU的节点部署守护进程之后,按照固定周期采集所述节点对应的所述GPU的型号和使用状态;从所述GPU的所述节点中提取所述GPU的状态参数、型号和使用状态;将所述GPU的所述状态参数与状态平均故障参数进行比较,根据比较结果,确定所述GPU是否将产生故障;其中,所述状态平均故障参数基于所述GPU的状态参数、型号和使用状态,通过预置的统计模型统计得到。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510088768.3/,转载请声明来源钻瓜专利网。
- 上一篇:太阳能幼教机器人
- 下一篇:一种内环工件的自动抓取装置