[发明专利]基于计算节点自组织分组的分布式神经网络混合同步训练方法有效
申请号: | 202010662415.0 | 申请日: | 2020-07-10 |
公开(公告)号: | CN111813858B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 陈爱国;郑旭;罗光春;田玲;谢渊;邹冰洋 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06N3/08;G06N3/04 |
代理公司: | 成都希盛知识产权代理有限公司 51226 | 代理人: | 陈泽斌 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 计算 节点 组织 分组 分布式 神经网络 混合 同步 训练 方法 | ||
本发明涉及分布式神经网络技术,其公开了一种基于计算节点自组织分组的分布式神经网络混合同步训练方法,解决传统分布式神经网络同步算法无法很好地平衡模型准确率与训练效率的问题。该方法包括:S1、采用卡尔曼滤波对计算节点的同步效率进行预测,并采用均方差分析计算节点的同步效率波动情况;S2、基于预测的各个计算节点的同步效率以及同步效率波动情况的相似程度进行计算节点自组织实时分组;S3、根据计算节点自组织实时分组的结果,在分组的组间与组内采用不同的同步策略训练模型。
技术领域
本发明涉及分布式神经网络技术,具体涉及一种基于计算节点自组织分组的分布式神经网络混合同步训练方法。
背景技术
单机系统在利用超大规模数据训练超大规模神经网络时,会出现训练效率低下的问题,严重情况甚至直接导致神经网络训练过程的失败。分布式神经网络的提出很好的解决了超大规模数据在单机系统中训练效率低下、训练失败的问题。
分布式神经网络根据划分训练数据还是划分模型数据两种情况分为数据并行化和模型并行化,其中,数据并行化是提高大规模数据训练效率的关键技术。
数据并行化的分布式神经网络,首先需要将训练数据拆分到多个计算节点上,在每个计算节点对训练数据进行单机优化,然后在每轮单机优化过程之后,将多个计算节点的梯度参数发送到参数服务器中进行参数融合,更新模型数据,接着将模型数据重新分发到计算节点中,进行下一轮迭代,其系统架构如图1所示。由于在分布式环境中,计算节点的运算能力、计算节点到参数服务器的带宽效率等都不尽相同,因此,计算节点将参数数据同步到参数服务器的步调并不相同。
传统的分布式神经网络同步算法,分为同步梯度下降算法(SSGD算法)、异步同步梯度下降算法(ASGD算法)和混合同步梯度下降算法三种。SSGD算法,需要等待所有计算节点将梯度参数发送到参数服务器之后才能进行参数融合,导致了参数服务器对慢节点的等待;ASGD算法,无需等待所有计算节点的参数数据,一旦参数服务器接收到一个参数数据后,即可进行参数的融合,但是此方法会导致模型准确率的降低;混合同步梯度下降算法,允许参数服务器异步运行直到任意两个计算节点间的迭代轮次差值超过阈值,较好的平衡了训练效率与模型准确率之间的关系,但是由于使用固定阈值,因此仍然不能够让分布式系统获得最高的效率。
可见,传统分布式神经网络同步算法无法很好地平衡模型准确率与训练效率。
发明内容
本发明所要解决的技术问题是:提出一种基于计算节点自组织分组的分布式神经网络混合同步训练方法,解决传统分布式神经网络同步算法无法很好地平衡模型准确率与训练效率的问题。
本发明解决上述技术问题所采用的技术方案是:
一种基于计算节点自组织分组的分布式神经网络混合同步训练方法,包括:
S1、采用卡尔曼滤波对计算节点的同步效率进行预测,并采用均方差分析计算节点的同步效率波动情况;
S2、基于预测的各个计算节点的同步效率以及同步效率波动情况的相似程度进行计算节点自组织实时分组;
S3、根据计算节点自组织实时分组的结果,在分组的组间与组内采用不同的同步策略训练模型。
作为进一步优化,步骤S1具体包括:
S11、对于任意计算节点i,参数服务器采集其近期每轮迭代的时间,形成固定大小的时间窗口集Ti,时间窗口集Ti中的每一个元素记录了在一次迭代中,参数服务器从发送最新模型数据至该节点,到接收完成该节点最新梯度参数所用的时间;
S12、根据节点最近一次迭代的效率与卡尔曼滤波条件,对接下来一次的迭代进行效率评估预测,获得预测的该节点下一次同步效率
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010662415.0/2.html,转载请声明来源钻瓜专利网。