[发明专利]动态资源调整与迁移的深度学习训练系统及方法有效
| 申请号: | 202010865757.2 | 申请日: | 2020-08-25 |
| 公开(公告)号: | CN112052087B | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 谭光明;马立贤;邵恩;张春明;段勃 | 申请(专利权)人: | 中科院计算所西部高等技术研究院 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;H04L41/0896;H04L41/0894;H04L67/10 |
| 代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
| 地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 动态 资源 调整 迁移 深度 学习 训练 系统 方法 | ||
1.一种动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法包括如下步骤:
S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;
所述机群整体的计算效率进行量化,采用如下方法确定:
其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率,Wi表示当前作业所使用的工作单元数量;
步骤S1具体包括如下步骤:
S11:定义预设的资源调整粒度S,设机群中的作业集合[M1、M2、...MJ],其中,J集群中作业的总数,令N=(1…J);
当一个新作业到达机群中时,首先检查是否存在此作业对应的计算效率,若是,则直接计算机群整体计算效率;若否,进入下一步;
S12:从机群中的作业集合中依次取出作业MN进行Wi-1规模的缩容,同时,判断可利用的资源是否大于等于S,若是,对新作业同步进行Wi-1规模的扩容,其中Wi表示当前作业所使用的worker数量,若否,则结束对新作业的扩容;
S13:判断作业MN的缩容是否大于S,若是,判断N是否大于J,若是,则结束,若否,则计算机群作业MN的扩缩效率和新作业的扩缩效率,并令N=N+1,进入S12;若否,直接进入S12;
所述扩缩效率采用如下方法确定:
其中,E表示扩缩效率,Niter表示在一测试时间内的迭代的次数,w表示作业所有工作单元占用的GPU资源数量;
S2:获取机群中所有作业的模型特征;
S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移;
所述步骤S3包括以下步骤:
S31:当新作业到来时,获取当前集群剩余资源大小、剩余资源分布,同时,判断当前集群中的剩余资源是否为空,若不为空则进入步骤S32,若为空则进入步骤S33;
S32:若当前集群剩余资源不为空,则为新来的作业分配当前集群中的所有剩余资源;
S33:选择资源占用最多的运行作业进行缩容,缩容的容量为扩缩效率大于固定阈值τ为止,扩缩步长最少为1次;
S34:遍历所有可能存在的资源分配可能性,循环动态调整所有运行作业的数量,最大化优化集群整体计算效率;
S35:判断作业的大张量单元占比是否不小于预设的临界值,若是,则将作业所占用资源的工作单元尽量迁移到相同的节点,若否,则将作业所占用资源工作单元尽量迁移到不同的节点上充分利用资源的碎片。
2.根据权利要求1所述动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法还包括:在动态资源调整的同时,通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。
3.一种动态资源调整与迁移的深度学习训练系统,其特征在于:利用权利要求1-2任一所述的动态资源调整与迁移的深度学习训练方法,所述系统包括:用于统计作业运行时各项数据的统计模块和用于动态调整作业的动态作业资源调整模块;
所述统计模块包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器;
所述动态作业资源调整模块包括动态逐步调整作业资源与资源重启子模块、数据存储单元和作业资源迁移单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算所西部高等技术研究院,未经中科院计算所西部高等技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010865757.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能装卸工业机器人
- 下一篇:一种电热冶炼炉炉体用复合云母带的制造方法





