[发明专利]一种资源管控方法、系统、设备以及存储介质在审
| 申请号: | 202210575971.3 | 申请日: | 2022-05-24 |
| 公开(公告)号: | CN114860452A | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 潘燕燕 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰;丰行 |
| 地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 资源 方法 系统 设备 以及 存储 介质 | ||
本发明公开了一种资源管控方法,包括以下步骤:获取复用参数;根据所述复用参数确定是否进行资源复用;响应于所述复用参数为第一预设值,开启资源复用并获取资源复用值;获取创建任务时设置的资源值;响应于所述设置的资源值大于所述资源复用值,将资源使用限制值设置为所述设置的资源值。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案通过资源组配置来启用资源复用,实现了对资源的管理和控制。在创建任务时,配置使用较少的资源配额,任务运行时,任务使用的资源的上限为资源组的资源复用值。这样解决了资源配额设置较小,任务运行会卡住;资源配额设置过大,资源浪费的问题。
技术领域
本发明涉及服务器领域,具体涉及一种资源管控方法、系统、设备以及存储介质。
背景技术
现阶段,集群中的节点的CPU、GPU显卡等资源,通过资源组分组的方式来管理。AI平台进行模型训练,需要配置资源组,用户与资源组关联后,能够使用资源组下的资源,提交训练任务。资源组的配置,直接关系到AI平台能否正常提交训练任务。
现阶段,创建资源组时,CPU资源作为独立的资源,不会有limit限制。这种情况下,用户在创建任务时,如果分配的CPU资源配额很少,可能会导致开发环境、训练任务等无法运行
但是资源组不支持CPU卡的Limit限制的配置管理,用户创建任务时,使用CPU配额很少时,可能会导致开发环境、训练任务等无法运行。CPU资源分配过多则造成资源浪费,其他训练脚本在训练时,可分配的CPU资源的额度就会比较少,影响其他训练脚本的训练。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种资源管控方法,包括以下步骤:
获取复用参数;
根据所述复用参数确定是否进行资源复用;
响应于所述复用参数为第一预设值,开启资源复用并获取资源复用值;
获取创建任务时设置的资源值;
响应于所述设置的资源值大于所述资源复用值,将资源使用限制值设置为所述设置的资源值。
在一些实施例中,还包括:
响应于所述任务运行过程中使用的资源值达到所述设置的资源值,停止任务。
在一些实施例中,还包括:
响应于所述设置的资源值小于所述资源复用值,将所述资源使用限制值设置为所述资源复用值。
在一些实施例中,还包括:
响应于所述任务运行过程中使用的资源值大于所述设置的资源值,继续运行任务,直到所述任务占用的资源值达到所述资源使用限制值。
在一些实施例中,还包括:
响应于所述复用参数为第二预设值,关闭资源复用并获取默认的资源限制值;
响应于所述设置的资源值大于所述默认的资源限制值,提示资源不足;
响应于所述设置的资源值小于所述默认的资源限制值,运行任务;
响应于所述任务运行过程中使用的资源值大于所述默认的资源限制值,停止任务。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种资源管控系统,包括:
第一获取模块,配置为获取复用参数;
判断模块,配置为根据所述复用参数确定是否进行资源复用;
开启模块,配置为响应于所述复用参数为第一预设值,开启资源复用并获取资源复用值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210575971.3/2.html,转载请声明来源钻瓜专利网。





