[发明专利]一种基于强化学习的神经网络自适应分布式并行训练方法在审
| 申请号: | 202110406478.4 | 申请日: | 2021-04-15 |
| 公开(公告)号: | CN113128702A | 公开(公告)日: | 2021-07-16 |
| 发明(设计)人: | 吴吉央;曾艳;张纪林;袁俊峰;任永坚;周丽 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 神经网络 自适应 分布式 并行 训练 方法 | ||
1.一种基于强化学习的神经网络自适应分布式并行训练方法,其特征在于,所述方法包括以下步骤:
(1)分析神经网络模型结构、计算属性等对神经网络执行性能的影响,提取包括计算代价、通信代价和内存使用率的性能因子,构建能够全面体现分布式训练性能的多维性能评价模型;
所述计算代价指参与运算的张量精度与设备计算密度比值,通信代价指通信量大小与通信带宽比值,内存使用率指当前设备模型参数物理存储大小与设备总内存比值;且所述性能因子还可扩展显存和吞吐量;
(2)根据神经网络模型结构特性和集群拓扑,构建分布式并行策略搜索空间;提取模型算子属性,包括算子类型、输入输出以及相邻节点索引,并根据算子属性采用前馈网络对模型所有算子进行自适应分组来确定深度网络模型并行度,其中,同一算子组中的算子不适合并行执行,算子组之间适合并行执行;
(3)基于重要性采样,采集强化学习训练样本,通过近端策略梯度方法迭代优化强化学习模型,寻找最优分布式并行策略。
2.根据权利要求1所述的一种基于强化学习的神经网络自适应分布式并行训练方法,其特征在于:步骤(1)中所述多维性能评价模型通过以下两个步骤建立:
(1)通过计算代价Ei和通信代价Ci的复杂线性关系f预测获得分布式并行策略单步运行时间rt=f(Ei,Ci);
(2)建立多维性能评价模型R=-log(αrt+βrc+γrm);其中;rt,rc和rm分别表示单步运行时间、峰值通信代价和峰值内存占用率,α,β和γ分别表示权重超参数,基于经验调参,获得最佳权重组合。
3.根据权利要求1所述的一种基于强化学习的神经网络自适应分布式并行训练方法,其特征在于:步骤(2)中所述确定深度网络模型并行度是指:对算子属性进行特征编码,基于多维性能评价模型计算所得奖励值,利用强化学习指导含有SoftMax的前馈神经网络完成算子分组,将互相依赖且通信代价较高的算子分为一组,从而确定深度网络模型并行度。
4.根据权利要求1所述的一种基于强化学习的神经网络自适应分布式并行训练方法,其特征在于:步骤(3)中所述近端策略梯度方法是指:分离采样和优化模型对象,利用KL散度捕捉两模型间差异,实现强化学习算法的离线迭代更新,引入指数移动平均奖励基线b降低收敛方差。
5.根据权利要求2所述的一种基于强化学习的神经网络自适应分布式并行训练方法,其特征在于:所述复杂线性关系f通过如下方式构造:每个设备采用双线程维护执行和通信两个先进先出队列构造策略执行过程,遵循如下原则:(1)只有当算子o所有依赖父节点均执行完毕,且获取到所有依赖张量后才可以在当前设备执行;(2)计算与通信过程可相互重叠;(3)同一设备算子以串行方式执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110406478.4/1.html,转载请声明来源钻瓜专利网。





