[发明专利]数据整合方法、分布式计算节点及分布式深度学习训练系统在审
申请号: | 201910741235.9 | 申请日: | 2019-08-12 |
公开(公告)号: | CN110502576A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 朱泓睿;姚成吉;田忠博;户忠哲;张晓扬;元国军 | 申请(专利权)人: | 北京迈格威科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/23;G06F16/21;G06N3/08;H04L29/08 |
代理公司: | 11722 北京钲霖知识产权代理有限公司 | 代理人: | 冯志云;李志新<国际申请>=<国际公布> |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据整合 预设 分布式计算节点 聚合步骤 时间接收 信息确定 学习训练 最终数据 数据段 聚合 发送 保证 传输 补充 网络 | ||
本公开提供了一种数据整合方法、分布式计算节点及分布式深度学习训练系统,其中数据整合方法用于分布式计算节点的数据整合,包括:信息确定步骤、第一发送步骤、第一接收步骤、聚合步骤、及汇总步骤。通过设置预设时间,超过预设时间时直接进行之后的步骤,从而保证了整体的效率,而在之后通过对超过预设时间接收的数据段进行补充传输和聚合,也保证了最终数据的训练完整性。从而,降低了网络对训练造成的影响,提高了效率,降低了成本。
技术领域
本公开一般地涉及人工智能领域,具体涉及一种数据整合方法、分布式深度学习训练方法及分布式计算节点。
背景技术
随着近几年深度学习的崛起,人们在图像分类、语音识别、自然语言处理、策略AI、自动驾驶等诸多领域取得了优异的成绩。然而,依靠着复杂的神经网络以及超大的数据集取得良好的成绩的基础是强大的计算能力。随着神经网络层数的加深以及数据集的不断扩展,训练模型对计算力要求以及调整参数试错成本也越来越高,这对于神经网络训练人员及科研人员来说是极大的时间成本。
目前,使用多计算节点并行训练是提高神经网络训练速度的重要解决办法。在多节点训练中,主要采取参数服务器(Parameter Server)和集合通信(All-Reduce)的方法对各计算节点训练梯度结果进行求和,并将结果返还给各机器进行下一步迭代训练。Ring-AllReduce是目前分布式学习中使用最广泛的All-Reduce算法,而Ring-AllReduce算法中存在一个严重的问题就是掉队问题(straggler),即在N个计算节点中,有一个或几个计算节点因为计算或网络传输的原因比其他计算节点要显著慢许多,从而导致各计算节点结果求和时等待最后的这几台计算节点,浪费了大量的通信时间。
发明内容
为了解决现有技术中存在的上述问题,本公开的第一方面提供一种数据整合方法,用于分布式计算节点的数据整合,其中,方法包括:信息确定步骤,确定需发送的数据段的数据信息,其中数据段具有数据段标识;第一发送步骤,根据数据信息,确定本次向第一计算节点发送的数据段,并发送;第一接收步骤,根据数据信息,确定本次应接收的数据段,并根据预设时间接收第二计算节点发出的数据段,如在预设时间内接收到数据段,执行聚合步骤,如在预设时间内未接收到数据段,则跳过聚合步骤;聚合步骤,根据接收到的数据段及其数据段标识,更新相应的数据段;汇总步骤,基于全部计算节点的第一接收步骤中最后应接收的数据段,进行整合,得到整合后的数据。
在一例中,信息确定步骤包括:数据分段步骤,根据全部计算节点的节点数量,将数据分为多个数据段,其中,计算节点具有节点标识;及,循环次数设置步骤,根据全部计算节点的节点数量,设置循环次数;
第一发送步骤还包括,根据节点标识以及当前循环次数,确定本次向第一计算节点发送的数据段;
第一接收步骤还包括,根据节点标识以及当前循环次数,确定本次应接收的数据段,且,如在预设时间内未接收到数据段,则执行判断步骤;
在聚合步骤后,数据整合方法还包括判断步骤:判断循环次数是否等于节点数量,若等于,则执行汇总步骤,若不等于,返回循环次数设置步骤且循环次数加1。
在一例中,第一接收步骤还包括:如在预设时间内未接收到数据段,记录本次应接收的数据段的数据段标识作为丢弃标识,并且在执行判断步骤后,持续接收数据段;汇总步骤还包括:第二发送步骤,根据丢弃标识,确定接收节点,将在预设时间后接收到的数据段发送至接收节点。
在一例中,汇总步骤还包括:第二接收步骤,接收其它计算节点发送的数据段;补充聚合步骤,第二接收步骤接收到的数据段及其数据段标识,更新相应的数据段。
在一例中,汇总步骤包括:第三发送步骤、第三接收步骤、及整合步骤,其中:第三发送步骤,将第一接收步骤中最后应接收的数据段,向其它计算节点发送;第三接收步骤,接收其它计算节点发送的数据段;整合步骤,根据数据段标识及第三接收步骤中接收到的数据段,整合数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910741235.9/2.html,转载请声明来源钻瓜专利网。