[发明专利]动态资源调整与迁移的深度学习训练系统及方法有效
| 申请号: | 202010865757.2 | 申请日: | 2020-08-25 |
| 公开(公告)号: | CN112052087B | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 谭光明;马立贤;邵恩;张春明;段勃 | 申请(专利权)人: | 中科院计算所西部高等技术研究院 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;H04L41/0896;H04L41/0894;H04L67/10 |
| 代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
| 地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 动态 资源 调整 迁移 深度 学习 训练 系统 方法 | ||
本发明提供一种动态资源调整与迁移的深度学习训练方法,所述方法包括如下步骤:S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;所述机群整体的计算效率进行量化,采用如下方法确定:其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Esubgt;i/subgt;(Wsubgt;i/subgt;)表示作业i的在使用资源Wsubgt;i/subgt;下的扩缩效率,Wsubgt;i/subgt;表示当前作业所使用的worker数量;S2:获取机群中所有作业的模型特征;S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移。本发明利用动态集群资源调整法,减少GPU资源的浪费,缩减作业运行时间,提高作业运行效率,达到系统平均作业运行效率与资源利用率最佳的状态。
技术领域
本发明涉及云计算资源调度技术领域,尤其涉及一种动态资源调整与迁移的深度学习训练系统及方法。
背景技术
深度学习训练作业是一种计算密集型任务,通常需要使用大量的GPU资源进行并行运算以加快作业的完成时间。对于已存在的深度学习框架如Tensorflow、MXNet、PyTorch等都是采用静态资源分配的方式,而静态资源分配往往一方面会导致资源的浪费另一方面也会造成作业运行效率不高。当有作业失败或采用抢占式调度器情景时都会面临作业重调度的问题,对于重调度的作业会出现以下两个问题:(1)空闲资源或可抢占资源无法满足出错重调度作业的资源需求数量时,重调度作业出现长时间排队,影响作业平均JCT性能。(2)重调度作业排队过程中,空闲的碎片计算资源因被闲置,而降低计算资源的利用率。通过动态资源扩缩,一方面计算出重调度作业的最佳资源数量、另一方面对正在运行的作业进行动态扩缩与作业迁移使得重调度的作业满足运行需求并保证资源的利用率与作业的运行效率。
因此,亟需一种基于重调度动态资源扩缩算法的深度学习训练系统及方法。
发明内容
有鉴于此,本发明提供一种动态资源调整与迁移的深度学习训练系统及方法。
本发明提供一种动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法包括如下步骤:
S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;
所述机群整体的计算效率进行量化,采用如下方法确定:
其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率,Wi表示当前作业所使用的工作单元数量;
S2:获取机群中所有作业的模型特征;
S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移。
进一步,所述方法还包括:在动态资源调整的同时,通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。
进一步,步骤S1具体包括如下步骤:
S11:定义预设的资源调整粒度S,设机群中的作业集合[M1、M2、...MJ],其中,J集群中作业的总数,令N=(1…J);
当一个新作业到达机群中时,首先检查是否存在此作业对应的计算效率,若是,则直接计算机群整体计算效率;若否,进入下一步;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算所西部高等技术研究院,未经中科院计算所西部高等技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010865757.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能装卸工业机器人
- 下一篇:一种电热冶炼炉炉体用复合云母带的制造方法





