[发明专利]一种基于模型结构特性的分布式深度学习通信方法和系统有效
申请号: | 201911105252.X | 申请日: | 2019-11-12 |
公开(公告)号: | CN111027671B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 蒋文斌;金海;彭晶;刘湃;祝简;刘博 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06N3/045 | 分类号: | G06N3/045;G06N3/098 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 结构 特性 分布式 深度 学习 通信 方法 系统 | ||
本发明公开了一种基于模型结构特性的分布式深度学习通信方法和系统,属于深度学习领域。包括:使用分布式集群预训练深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和Tsubgt;ij/subgt;,对于每个server,对在[min{tsubgt;i′j/subgt;},min{tsubgt;i′j/subgt;+Tsubgt;i′j/subgt;})期间收集到的第j层网络梯度,在min{tsubgt;i′j/subgt;+Tsubgt;i′j/subgt;}时间点进行累加,并用累加梯度更新权值参数。本发明根据网络各层的前向计算与后向计算所需时间及在网络位置,限制server接收梯度的时间,实现多机间的软同步,对每一层采用不同的同步节点个数,消除迭代计算中等待时间。根据梯度的陈旧度对其缩放,减小陈旧梯度的影响,在保证训练精度的前提下,提高分布式深度学习通信效率,加快训练速度。
技术领域
本发明属于深度学习技术领域,更具体地,涉及一种基于模型结构特性的分布式深度学习通信方法和系统。
背景技术
随着训练数据集的规模增大,以及深度神经网络模型的层数越来越深,在单台机器中训练模型常常会受到机器性能的限制,无论是在数据还是模型规模上都存在无法达到实际应用需求的问题。在这样的背景之下,越来越多的人开始关注将深度学习和分布式系统结合在一起。其中一个关键问题就是如何才能高效利用分布式集群中的资源来训练模型。
在基于PS架构的大规模深度学习分布式训练中,通常有多个worker及多个server,训练数据被切分到每个worker上,每个server负责一部分网络的权值参数的更新。worker节点训练网络,计算梯度并将梯度推送至参数服务器server端。server用累积梯度更新权值参数,随后worker从server端拉取最新的权值进行下一轮迭代计算。
节点训练得到的梯度推送至参数服务器进行同步主要用到两种并行机制:同步并行和异步并行。在一个有N台机器的集群中,如果使用同步并行机制,则worker提交了梯度后,要等待其他所有worker提交梯度,待server接收到所有worker的梯度之后用累积梯度更新权值参数,然后每个worker才能拉取最新的权值参数进而进行下一轮迭代。如果使用异步并行机制,则worker向server提交了梯度后,server立即使用该梯度对权值参数更新,该worker即可获取最新的参数进行下一轮迭代,不需要等待其他worker提交梯度。
同步并行机制中,由于每次迭代都需要收到所有worker的梯度并进行权值参数更新后,每个worker才能获取最新的参数进行下一轮迭代,因此每轮迭代每个worker使用的权值参数都是相同的,不存在陈旧梯度的问题,模型的收敛效果好。然而在实际的生产环境中,由于集群规模大,通常分批购置机器,因此,新旧机器混合的异构集群较为常见。在这种异构集群中,节点的硬件配置有较大差别,节点间存在明显的性能差异。导致节点间同步等待时间较长。而对于异步机制,机器间不需要进行同步等待,因而不存在该问题。这也是异步机制通常训练速度较快的原因。但由于异步机制中,每个worker训练使用的模型权值参数不一致,产生了陈旧梯度的问题,即某worker在本次提交梯度和上次提交梯度之间网络参数已经被其他worker提交的梯度更新过,因而该worker计算本次提交的梯度所用到的权值参数实际上是过时的,导致异步机制的精度受到很大影响。
发明内容
针对现有技术的同步机制中通信时节点同步的等待时间长而异步机制中精度严重受到陈旧梯度的影响的问题,本发明提供了一种基于模型结构特性的分布式深度学习通信方法和系统,其目的在于控制server接收每层网络梯度的时间,实现多机间的软同步,即在限定时间内无论收到多少worker的梯度都进行参数更新,以保证worker在进行该层网络的下一轮迭代的前向计算之前能及时获取最新的权值参数,进而消除层间延迟;为了减小陈旧梯度对训练精度的影响,通过梯度的陈旧度stal及集群中的机器个数N对梯度进行缩放。
为实现上述目的,按照本发明的第一方面,提供一种基于模型结构特性的分布式深度学习通信方法,该方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911105252.X/2.html,转载请声明来源钻瓜专利网。