[发明专利]分布式深度学习方法、装置、参数服务器及主工作节点在审

申请号：	201911352575.9	申请日：	2019-12-25
公开（公告）号：	CN113033800A	公开（公告）日：	2021-06-25
发明（设计）人：	郭嵩;周祺华;詹玉峰	申请（专利权）人：	香港理工大学深圳研究院
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	深圳中一专利商标事务所 44237	代理人：	徐启艳
地址：	518057 广东省深圳市南山区高新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分布式深度学习方法装置参数服务器工作节点
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请属于计算机技术领域，提供了一种分布式深度学习方法、装置、参数服务器及主工作节点。方法包括接收多个数据运算组中主工作节点发送的梯度向量集；其中，每个主工作节点发送的梯度向量集包括该主工作节点所在数据运算组中所有工作节点的梯度向量；根据多个梯度向量集对预设深度学习模型的全局模型参数进行更新；将更新后的全局模型参数下发至各主工作节点，以使每个主工作节点控制其所在数据运算组中所有工作节点根据更新后的全局模型参数进行本地的模型训练。本申请实施例的分布式深度学习方法以数据运算组为粒度进行数据以及任务的调度，减少了每次迭代中与参数服务器同步的数据量，降低通信开销且提高了各工作节点的资源利用率。

技术领域

本申请属于计算机技术领域，尤其涉及一种分布式深度学习方法、装置、参数服务器及主工作节点。

背景技术

分布式深度学习是一种解决复杂模型训练以及大数据训练的有效手段。

分布式深度学习普遍使用的策略是通过参数服务器将训练模型参数分发到不同的工作节点上，然后这些工作节点并行地使用该模型参数进行模型更新，并将计算结果周期性的同步至参数服务器，直至全局模型达到收敛。

由于各工作节点的计算能力、网络带宽差异较大，参数服务器接收到不同工作节点的计算结果的时间差异较大。为了实现数据同步，在每一次迭代中，运算速度较快的工作节点均需要等待运算速度较慢的工作节点，导现大量的工作节点资源利用率低。

发明内容

有鉴于此，本申请实施例提供了一种分布式深度学习方法、装置、设备及存储介质，以解决现有技术中分布式深度学习方法中工作节点的资源利用率低的技术问题。

第一方面，本申请实施例提供了一种分布式深度学习方法，包括：

接收多个数据运算组中主工作节点发送的梯度向量集；其中，每个主工作节点发送的梯度向量集包括主工作节点所在数据运算组中所有工作节点的梯度向量；

根据多个梯度向量集对预设深度学习模型的全局模型参数进行更新；

将更新后的全局模型参数下发至各主工作节点，以使每个主工作节点控制其所在数据运算组中所有工作节点根据所述更新后的全局模型参数进行本地的模型训练。