[发明专利]一种用于分布式训练计算阶段的自动优化方法在审
| 申请号: | 202210553734.7 | 申请日: | 2022-05-20 |
| 公开(公告)号: | CN114911621A | 公开(公告)日: | 2022-08-16 |
| 发明(设计)人: | 林海阳;严明玉;邹沫;王铎;李文明;叶笑春;唐志敏;范东睿 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08;H04L67/1001 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 分布式 训练 计算 阶段 自动 优化 方法 | ||
1.一种用于分布式训练计算阶段的自动优化方法,所述方法包括在分布式训练的每个回合执行如下步骤:
S1、以预设的最小单位负载为粒度,计算当前回合中参与分布式训练的所有节点的计算性能;
S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间,分别计算每个节点在限制时间内能够完成计算的最大负载数,以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略;
S3、以步骤S2中负载分配策略,分配下一回合每个计算节点的负载。
2.根据权利要求1所述的方法,其特征在于,节点的计算性能是该节点完成预设最小单位负载计算的时间。
3.根据权利要求2所述的方法,其特征在于,计算性能最差的节点是所有参与分布式训练的节点中、完成最小单位负载计算所需时间最长的节点。
4.根据权利要求3所述的方法,其特征在于,每个计算节点在限制时间内能够完成计算的最大负载数=限制时间/该节点完成最小单位负载计算的时间。
5.根据权利要求4所述的方法,其特征在于,所述步骤S2包括:
S21、根据所有节点的计算性能,确定计算性能最差的节点;
S22、根据计算性能最差的节点的计算性能,获取最大限制时间,其中,最大限制时间=节点对应的最大允许负载数*计算性能最差的节点完成最小单位负载计算所需的时间;
S23、基于预设的时间划分粒度,在小于或等于最大限制时间的范围内设置多个限制时间,计算每个限制时间内每个节点能够完成计算的最大负载数,以所有节点在每个限制时间内能够完成计算的最大负载数组成每个限制时间对应的负载分配策略;
S24、计算每个限制时间对应的负载分配策略的系统效率,并选出效率最高的负载分配策略。
6.根据权利要求5所述的方法,其特征在于,每个策略对应的系统效率=该负载分配策略对应的所有节点的负载数/该负载分配策略对应的计算总时间。
7.根据权利要求6所述的方法,其特征在于,负载分配策略对应的计算总时间包括在该负载分配策略对应的负载分配下,所有节点完成分布式训练计算阶段和同步阶段的总时间。
8.一种分布式训练方法,用于对深度神经网络进行多回合训练,所述分布式训练的每个回合包括深度神经网络在分布式训练系统中的计算阶段和同步阶段,其特征在于,所述方法包括在每个回合的计算阶段采用如权利要求1-7任一所述的方法分配下一回合每个计算节点的负载以进行下一回合的分布式训练。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1至7任一所述方法的步骤。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210553734.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高猛爆炸复合用炸药及其制备方法
- 下一篇:一株利于稻渔共生的菌株及其应用





