[发明专利]一种训练数据的传输方法、装置、设备及介质在审
申请号: | 201911386514.4 | 申请日: | 2019-12-29 |
公开(公告)号: | CN111178540A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 赵旭东 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F9/50 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 徐丽 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 数据 传输 方法 装置 设备 介质 | ||
本发明公开了一种训练数据的传输方法,包括:监测节点中用于反映当前训练情况的当前监测值,判断当前监测值是否大于预设值;如果是,将获得的当前训练数据压缩为预设类型的压缩数据;与目的节点建立通信,发送压缩数据至目的节点。计算完成后进行解压缩操作继续模型训练过程。由此可见,通过将当前训练数据压缩为预设类型的压缩数据,从而在保证模型训练精度的同时减少通信过程中传输的数据量;缓解了网络资源的压力,保证数据传输过程中的准确性和高效性。此外,本发明所提供的一种训练数据的传输装置、设备及存储介质与上述方法对应。
技术领域
本发明涉及通信技术领域,特别是涉及一种训练数据的传输方法、装置、设备及介质。
背景技术
目前,深度学习模型在各个领域均得到了广泛的应用,例如计算机视觉、推荐系统、自然语言处理等领域。为了使深度学习模型得到更好的训练结果,模型参数已达到10亿量级。针对这一情况,科研人员利用分布式计算框架将深度学习模型的训练过程分布到多个计算节点上,使其进行并行计算,然后在训练过程中建立通信以实现梯度数据在反向传播过程中一致。当前的分布式计算框架支持int32、float32和float16等数据类型进行计算。
由于在云计算环境下,通常采用25Gb网络。现有技术中在传输训练数据时,为了缓解网络资源压力,保证训练数据的正常传输,通常选用浮点数占用的位数较小的float16类型的数据进行深度学习模型的训练,并将获得的float16类型的训练数据进行传输,从而降低传输过程中的通讯数据量,达到缓解网络资源压力的目的。
但是,随着深度学习模型的层数的增加,参数量的规模越来越大,float16类型的数据在大规模的训练过程中也产生大量的训练数据,仍然会出现无法通信带宽称为模型训练瓶颈的情况,并未从根本上解决问题。
发明内容
本发明的目的是提供一种训练数据的传输方法、装置、设备及介质,通过将当前训练数据压缩为预设类型的压缩数据,从而在保证模型训练精度的同时减少通信过程中传输的数据量;缓解了网络资源的压力,保证数据传输过程中的准确性和高效性。
为解决上述技术问题,本发明提供一种训练数据的传输方法,包括:
监测节点中用于反映当前训练情况的当前监测值,判断所述当前监测值是否大于预设值;
如果是,将获得的当前训练数据压缩为预设类型的压缩数据;
与目的节点建立通信,发送所述压缩数据至所述目的节点。
优选地,所述当前监测值具体为当前时间间隔或放入缓冲区的当前数据量。
优选地,所述将获得的当前训练数据压缩为预设类型的压缩数据具体为:
根据压缩算法,将获得的当前训练数据压缩为预设类型的压缩数据。
优选地,所述预设类型具体为int8数据类型。
优选地,还包括:
判断是否接收到其它节点发送的压缩数据;
如果是,根据与所述压缩算法对应的解压算法解压所述压缩数据。
优选地,还包括:
检测与目的节点之间的通信是否正常;
如果否,则反馈用于表示通信故障的异常信息。
优选地,还包括:
根据预先存储的运维人员的联系方式,通知所述运维人员对所述异常信息进行处理。
为解决上述技术问题,本发明还提供一种训练数据的传输装置,包括:
监测模块,用于监测节点中用于反映当前训练情况的当前监测值,判断所述当前监测值是否大于预设值;如果是,则进入压缩模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911386514.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置