[发明专利]一种GPU资源管理方法及装置在审
| 申请号: | 202110828880.1 | 申请日: | 2021-07-22 |
| 公开(公告)号: | CN113703961A | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 王勇 | 申请(专利权)人: | 新华三大数据技术有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450000 河南省郑州市郑州高*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 gpu 资源管理 方法 装置 | ||
本申请涉及虚拟化技术领域,特别涉及一种GPU资源管理方法及装置。该方法包括:监测各主机的GPU的运行状态;若监测到目标主机的第一GPU的运行状态为非健康状态,则确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。
技术领域
本申请涉及虚拟化技术领域,特别涉及一种GPU资源管理方法及装置。
背景技术
GPU(Graphics Processing Unit,图像处理器)是一种专门做图像和图形相关运算工作的微处理器,被广泛应用于云桌面、AI、公有云等领域。面对大量的图形显示和计算需求,主机上1个GPU硬件被拆分成多个vGPU设备提供给更多虚拟机使用。当多个虚拟机在同一时间内大量使用vGPU能力时,会造成GPU资源抢占、GPU任务调度、硬件温度升高导致的GPU性能大幅下降甚至无法使用的情况。目前,当出现这类问题时只能通过暂停业务、或者等待的方式来缓解GPU的压力,这是用户不愿意接受的。
发明内容
本申请提供了一种GPU资源管理方法及装置,用以解决现有技术中存在的多个虚拟机抢占GPU资源而导致GPU不可用的问题。
第一方面,本申请提供了一种GPU资源管理方法,所述方法包括:
监测各主机的GPU的运行状态;
若监测到目标主机的第一GPU的运行状态为非健康状态,则确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;
将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。
可选地,监测各主机的GPU的运行状态的步骤包括:
基于预设的周期获取各主机的各GPU的性能参数;
基于获取到的各GPU的性能参数和预设的各性能参数的权重值,分别计算各GPU的健康值;
其中,若一个GPU的健康值小于预设值,则判定该GPU的运行状态为非健康状态;否则,判定该GPU的运行状态为健康状态。
可选地,将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU的步骤包括:
判断所述目标主机上是否存在运行状态为健康状态的第二GPU;
若判定所述目标主机上存在运行状态为健康状态的第二GPU,则分别计算所述目标虚拟机的繁忙程度;
将繁忙程度最高的所述目标虚拟机的当前使用的GPU由所述第一GPU调整为所述第二GPU。
可选地,所述方法还包括:
若判定所述目标主机上不存在运行状态为健康状态的第二GPU,则判断其它主机上是否存在运行状态为健康状态的第三GPU;
若判定其它主机上存在运行状态为健康状态的第三GPU,则将繁忙程度最高的所述目标虚拟机迁移至所述其它主机上,并将繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为所述第三GPU。
可选地,所述方法还包括:
在将任意一个所述目标虚拟机的当前使用的GPU由所述第一GPU调整为其他GPU之后,若监测到所述目标GPU的运行状态仍为非健康状态,则将当前繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为其它GPU,直至所述目标GPU的运行状态为健康状态。
第二方面,本申请提供了一种GPU资源管理装置,所述装置包括:
监测单元,用于监测各主机的GPU的运行状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110828880.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种资讯信息处理的方法及其终端
- 下一篇:一种虚拟机管理方法及装置





