[发明专利]分布式深度学习方法、装置、参数服务器及主工作节点在审
申请号: | 201911352575.9 | 申请日: | 2019-12-25 |
公开(公告)号: | CN113033800A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 郭嵩;周祺华;詹玉峰 | 申请(专利权)人: | 香港理工大学深圳研究院 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 徐启艳 |
地址: | 518057 广东省深圳市南山区高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 深度 学习方法 装置 参数 服务器 工作 节点 | ||
本申请属于计算机技术领域,提供了一种分布式深度学习方法、装置、参数服务器及主工作节点。方法包括接收多个数据运算组中主工作节点发送的梯度向量集;其中,每个主工作节点发送的梯度向量集包括该主工作节点所在数据运算组中所有工作节点的梯度向量;根据多个梯度向量集对预设深度学习模型的全局模型参数进行更新;将更新后的全局模型参数下发至各主工作节点,以使每个主工作节点控制其所在数据运算组中所有工作节点根据更新后的全局模型参数进行本地的模型训练。本申请实施例的分布式深度学习方法以数据运算组为粒度进行数据以及任务的调度,减少了每次迭代中与参数服务器同步的数据量,降低通信开销且提高了各工作节点的资源利用率。
技术领域
本申请属于计算机技术领域,尤其涉及一种分布式深度学习方法、装置、参数服务器及主工作节点。
背景技术
分布式深度学习是一种解决复杂模型训练以及大数据训练的有效手段。
分布式深度学习普遍使用的策略是通过参数服务器将训练模型参数分发到不同的工作节点上,然后这些工作节点并行地使用该模型参数进行模型更新,并将计算结果周期性的同步至参数服务器,直至全局模型达到收敛。
由于各工作节点的计算能力、网络带宽差异较大,参数服务器接收到不同工作节点的计算结果的时间差异较大。为了实现数据同步,在每一次迭代中,运算速度较快的工作节点均需要等待运算速度较慢的工作节点,导现大量的工作节点资源利用率低。
发明内容
有鉴于此,本申请实施例提供了一种分布式深度学习方法、装置、设备及存储介质,以解决现有技术中分布式深度学习方法中工作节点的资源利用率低的技术问题。
第一方面,本申请实施例提供了一种分布式深度学习方法,包括:
接收多个数据运算组中主工作节点发送的梯度向量集;其中,每个主工作节点发送的梯度向量集包括主工作节点所在数据运算组中所有工作节点的梯度向量;
根据多个梯度向量集对预设深度学习模型的全局模型参数进行更新;
将更新后的全局模型参数下发至各主工作节点,以使每个主工作节点控制其所在数据运算组中所有工作节点根据所述更新后的全局模型参数进行本地的模型训练。
在第一方面的一种可能的实现方式中,分布式深度学习方法还包括:
获取多个工作节点的运行状态信息;
根据多个运行状态信息,对多个工作节点进行重新分组,获得多个更新后的数据运算组;
确定每个更新后的数据运算组的主工作节点。
在第一方面的一种可能的实现方式中,运行状态信息包括计算能力信息、通信能力信息以及贡献能力信息;其中,计算能力信息用于描述每个工作节点计算能力的大小;通信能力信息用于描述每个工作节点的可用带宽;贡献能力信息用于描述每个工作节点对所述深度学习模型训练过程的贡献度大小。
在第一方面的一种可能的实现方式中,根据多个运行状态信息,对多个工作节点进行重新分组,获得多个更新后的数据运算组,包括:
根据多个运行状态信息生成评价指标,该评价指标包括计算能力信息的权重值、通信能力信息的权重值以及贡献能力信息的权重值;
根据评价指标计算获得多个工作节点中每两个工作节点之间的距离;其中,距离用于描述两个工作节点之间的相似度;
根据多个工作节点中每两个工作节点之间的距离,对多个工作节点进行重新分组,获得多个更新后的数据运算组。
在第一方面的一种可能的实现方式中,所述接收多个数据运算组中主工作节点发送的梯度向量集,包括:
针对每个数据运算组,在接收到该数据运算组中主工作节点发送的梯度向量集时,将该数据运算组的迭代次数加一;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港理工大学深圳研究院,未经香港理工大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911352575.9/2.html,转载请声明来源钻瓜专利网。