[发明专利]一种梯度数据的同步方法、系统、设备及存储介质有效
申请号: | 202211592818.8 | 申请日: | 2022-12-13 |
公开(公告)号: | CN115665174B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 曹芳;郭振华;王丽;高开;赵雅倩;李仁刚 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | H04L67/1095 | 分类号: | H04L67/1095;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 崔俊红 |
地址: | 250000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 梯度 数据 同步 方法 系统 设备 存储 介质 | ||
本申请公开了一种梯度数据的同步方法、系统、设备及存储介质,应用于机器学习技术领域,包括:获取1个批次的训练样本并进行本地深度学习模型的训练,得到本地参数梯度;当自身在未组队状态下接收组队请求时将自身设置为组队状态;按照预设规则从邻居节点集合中选取出1个邻居节点,判断选取出的邻居节点当前是否处于组队状态;如果否,则与其组队;如果是,则重新选取;在将自身设置为组队状态之后,与组队节点进行梯度数据的同步,同步之后将自身恢复为未组队状态,并返回执行训练操作,直至模型训练结束。应用本申请的方案,可以有效地实现去中心化的梯度数据同步,同时降低了通信开销,提高了方案的应用范围。
技术领域
本发明涉及机器学习技术领域,特别是涉及一种梯度数据的同步方法、系统、设备及存储介质。
背景技术
近年来,深度神经网络获得了广泛的应用,并且其模型尺寸变得越来越大, 这种增长使得高效的模型训练变得非常重要,分布式训练应运而生。目前的分布式模型的训练方法中,广泛应用的是数据并行方法。在使用数据并行方法进行梯度数据的同步时,同步方式主要有三类,分别是PS(Parameter Serve,参数服务器)方法、All-Reduce算法,以及去中心化的梯度数据同步方法。
其中,参数服务器方法是第一个支持分布式训练的梯度数据同步方法,它从所有的工作节点那里收集梯度,即从所有的worker那里收集梯度,并将更新的模型发回给各个worker,这种方法使训练过程的管理相对容易。但是由于参数服务器的通信瓶颈问题,使得可扩展性有限。与PS方法相比,All-Reduce算法去除了中心节点,有效地利用了计算设备之间的带宽,实现了更好的并行性,然而All-Reduce操作是一种同步操作,其计算的吞吐量由最慢的worker决定,因此在异质集群环境中训练效率很低。
为了提高异质集群环境中的训练效率,高效地进行梯度数据的同步,去中心化的梯度数据同步方法成为目前的研究热点。去中心化的梯度数据同步方法可以使用一个任意连接的通信图来指定worker之间的点对点通信。其中,AD-PSGD(AsynchronousDecentralized Parallel SGD,异步去中心化并行SGD方法)是目前的一种典型的去中心化的梯度数据同步方法。该方法中,每个worker都保存有整个模型,worker之间的通信由一个通信图控制,只有通信图中相邻位置的节点之间才能进行通信,即由边直接相连的两个邻居节点之间才能进行通信,异步去中心化并行SGD方法既能提高通信效率,又能很好地容忍异质性,在异质集群环境中,可以很好地抵抗Straggler问题。
异步去中心化并行SGD方法的缺点在于,进行节点选取时,是随机地选择一个邻居节点,并与该邻居节点进行原子模型参数平均化操作,所谓的原子操作是指在多个节点同时选中了相同的相邻节点情况下,这些节点的平均化操作需要逐次排他性地进行。具体来说,在异步去中心化并行SGD方法的执行过程中,同一时间段内可能会有多个worker选择了同一个目标worker来做参数平均化,而由于参数平均化操作的原子性,会带来大量的通信开销,即在同一时间只能有一个节点与自身进行参数平均化,其他节点只能等待前者完成,这类因冲突而串行化等待的过程使得该方法具有较大的通信开销,导致在没有Straggler的同质集群环境中时,性能明显低于All-Reduce算法。
另一方面,为了避免产生死锁,即避免例如worker-A等待worker-B,worker-B等待worker-C,worker-C等待worker-A这样的死锁情况,异步去中心化并行SGD方法将其适用的通信拓扑人为地分为主动组和被动组两部分,并且要求通信图中的边只存在于两组之间,即主动组与被动组才能组成2个通信连接的邻居节点,进行梯度数据的同步。这就严格限定了该方法所适用的拓扑类型,导致不符合该条件的拓扑结构都无法使用该方法。
综上所述,如何更有效地实现去中心化的梯度数据同步,降低通信开销,且提高方案的应用范围,是目前本领域技术人员急需解决的技术问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211592818.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置