[发明专利]一种基于版本差异的流水线并行训练节点权重分配方法在审
申请号: | 202110766607.0 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113469341A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 毛莺池;屠子健;聂华;黄建新;徐淑芳;吴俊;戚荣志 | 申请(专利权)人: | 河海大学;中科可控信息产业有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08;G06F9/38 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 版本 差异 流水线 并行 训练 节点 权重 分配 方法 | ||
1.一种基于版本差异的流水线并行训练节点权重分配方法,其特征在于,包括如下步骤:
(1)初始化深度学习模型,并把该模型载入;
(2)构建流水线并行训练方案,采用异步参数更新方法,并发执行不同节点中不同批次的训练,记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程;
(3)利用最新的训练节点权重版本,预测出未来训练过程中的节点权重;
(4)根据节点权重预测进行当前批次版本差异计算;
(5)判断当前批次计算得到的前向与后向传递版本差异值是否为0,是则不更新节点预测权重,否则根据版本差异进行权重更新;
(6)判断该节点是否完成所有批次的版本差异计算,是则完成该节点的预测权重更新,否则返回步骤(3)-(5)继续迭代;
(7)判断所有节点的版本差异计算是否全部完成,是则完成流水线并行训练节点权重分配,否则返回步骤(6)继续迭代;
(8)按照上述权重分配方案将其部署到异构计算节点中,得到针对拟训练目标网络的流水线并行训练节点权重分配方案。
2.根据权利要求1所述的基于版本差异的流水线并行训练节点权重分配方法,其特征在于,所述步骤(2)中单位流水线执行时间主要指前向传递和后向传递计算时间之和。
3.根据权利要求1所述的基于版本差异的流水线并行训练节点权重分配方法,其特征在于,所述步骤(3)中预测未来训练过程节点权重的具体步骤如下:
(3.1)预测未来训练过程节点权重的下降梯度;
(3.2)计算下一时刻的节点权重值。
4.根据权利要求1所述的基于版本差异的流水线并行训练节点权重分配方法,其特征在于,所述步骤(4)中进行当前批次版本差异计算的具体步骤如下:
(4.1)计算当前批次执行前向传递时所处阶段的版本差异;
(4.2)计算当前批次执行后向传递时所处阶段的版本差异。
5.根据权利要求3所述的基于版本差异的流水线并行训练节点权重分配方法,其特征在于,所述步骤(3.1)中预测未来训练过程权重的下降梯度的具体步骤如下:
定义关于t-1时刻参数θt-1的目标函数为f(θt-1),计算f(θt-1)的梯度gt,其公式为:
对gt进行修正,得到修正后的梯度其公式为:
对于历史梯度计算的一阶矩估计mt和二阶矩估计nt,其公式为:
mt=μmt-1+(1-μ)gt
其中μ,ν分别代表了一阶矩估计和二阶矩估计的衰减因子;分别对mt、nt进行修正,得到修正后的一阶矩估计和二阶矩估计其公式为:
计算下一时刻的动量更新其公式为:
定义预测时刻t的下降梯度ΔWt,其公式为:
6.根据权利要求3所述的基于版本差异的流水线并行训练节点权重分配方法,其特征在于,所述步骤(3.2)中计算下一时刻的节点权重值的具体步骤如下:
计算从t时刻到t+1时刻的节点权重更新,其公式为:
Wt+1=Wt-η·ΔWt
其中η是学习率,ΔWt为t时刻的下降梯度;假设一个批次在t时刻完成其往返训练过程;因此,计算t+1时刻的节点预测权重的公式为:
其中为权重预测技术在该批次开始执行前向传递时根据节点权重变化趋势预测t时刻的未来权重,并以此节点预测权重计算该批次的前向与后向传递。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;中科可控信息产业有限公司,未经河海大学;中科可控信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110766607.0/1.html,转载请声明来源钻瓜专利网。