[发明专利]一种训练任务资源调度方法、装置、设备及介质在审
| 申请号: | 202111150775.3 | 申请日: | 2021-09-29 |
| 公开(公告)号: | CN113867959A | 公开(公告)日: | 2021-12-31 |
| 发明(设计)人: | 王德奎;陈培 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张艺 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 训练 任务 资源 调度 方法 装置 设备 介质 | ||
本申请公开了一种训练任务资源调度方法、装置、设备及介质,该方法包括:确定服务器集群中正在运行的目标训练任务的已分配资源利用率;若已分配资源利用率满足预设条件,则根据当前服务器集群中的空闲资源对服务器集群中的服务器节点进行筛选,并在筛选到的服务器节点中为目标训练任务分配新资源,以得到扩容后训练任务;当获取新训练任务,并且当前服务器集群中的空闲资源不满足新训练任务的资源需求时,则从所有所述扩容后训练任务对应的所述新资源所在的服务器节点中筛选出目标服务器节点,并对所述目标服务器节点中的所述新资源进行释放。通过上述方案,能够提升服务器集群的训练任务资源伸缩效率。
技术领域
本发明涉及人工智能技术领域,特别涉及一种训练任务资源调度方法、装置、设备及介质。
背景技术
在基于服务器集群的AI(即Artificial Intelligence,人工智能)训练场景中,一个模型训练所需要的具体资源由于无法被预先准确计算出来,所以目前算法人员在申请训练任务使用的CPU(即Central Processing Unit,中央处理器)和GPU(即GraphicsProcessing Unit,图形处理器)时,通常都会按照个人主观判断申请或者按照最大规格来申请,这可能会导致训练任务资源不充分或者资源浪费。对于已经在运行的训练任务Job来说,如果该训练任务Job的已分配资源利用率已经很高,此时会出现由于训练任务Job的预分配资源不足致使无法提高训练性能、而集群中却存在资源闲置情况的问题。
为了克服上述问题,当前可以采取以下两种方式来对训练任务Job进行资源伸缩,以达到为训练任务Job进行资源扩容或缩容的目的,其中,一种方式是采用Horovod训练框架为训练任务提供的弹性资源伸缩机制,但是在使用这种方式时需要用户进行手动处理,从而降低了资源伸缩效率;而另外一种方式则是基于checkpoint来进行训练任务的资源弹性扩容,不过这种方式需要先终止训练任务Job中的所有任务运行进程task,并进行task的重建,整个过程消耗时间过多,由此也降低了资源伸缩效率。
综上,如何提升服务器集群的训练任务资源伸缩效率是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种训练任务资源调度方法、装置、设备及介质,能够提升服务器集群的训练任务资源伸缩效率。其具体方案如下:
第一方面,本申请公开了一种训练任务资源调度方法,包括:
确定当前所述服务器集群中正在运行的目标训练任务的已分配资源利用率;所述目标训练任务为所述分布式训练任务中的任一训练任务;
若所述已分配资源利用率满足预设条件,则根据当前所述服务器集群中的空闲资源对所述服务器集群中的服务器节点进行筛选,并在筛选到的服务器节点中为所述目标训练任务分配新资源,以得到扩容后训练任务;
当获取到新训练任务,则判断当前所述服务器集群中的空闲资源是否满足所述新训练任务的资源需求;
若当前所述服务器集群中的空闲资源不满足所述资源需求,则从所有所述扩容后训练任务对应的所述新资源所在的服务器节点中筛选出目标服务器节点,并对所述目标服务器节点中的所述新资源进行释放。
可选的,所述确定当前所述服务器集群中正在运行的目标训练任务的已分配资源利用率,包括:
确定当前所述服务器集群中正在运行的目标训练任务的已分配GPU利用率;
相应的,所述若所述已分配资源利用率满足预设条件,则根据当前所述服务器集群中的空闲资源对所述服务器集群中的服务器节点进行筛选,并在筛选到的服务器节点中为所述目标训练任务分配新资源,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111150775.3/2.html,转载请声明来源钻瓜专利网。





