[发明专利]一种神经网络训练方法、装置及其设备有效
| 申请号: | 202010089702.7 | 申请日: | 2020-02-12 |
| 公开(公告)号: | CN111275173B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 朱亦博;江逸敏;蓝昶;郭传雄 | 申请(专利权)人: | 字节跳动有限公司 |
| 主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/063 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 神经网络 训练 方法 装置 及其 设备 | ||
本公开提供了一种神经网络训练方法、装置、设备以及非暂时性计算机可读存储介质,该方法包括:由第一处理单元生成与神经网络有关的张量;由第二处理单元对第一处理单元生成的张量进行张量求和,得到全局张量和;以及由第一处理单元基于全局张量和执行神经网络的参数更新,其中,所述第一处理单元不同于所述第二处理单元。
技术领域
本公开涉及人工智能领域,更具体地,涉及神经网络训练方法、装置、设备以及非暂时性计算机可读存储介质。
背景技术
训练深度神经网络(Deep Neural Network,DNN)对于运行许多现代服务很重要。可以为应用训练众多的DNN模型,包括计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)等。在过去的几年中,训练最新的模型所需的计算已惊人地增加。例如,训练BERT(最受欢迎的NLP模型之一)需要在四个云TPU上训练16天。如果在单台GPU机器上进行训练,需要更长的训练时间。为了在合理的时间内完成训练,必须使用许多GPU并以分布式方式进行训练。
当今最常见的分布式训练技术是数据并行,其中每个处理单元(例如,GPU)保留整个模型的本地副本,使用不同的数据进行训练,并彼此同步或异步地共享信息(knowledge)(通常以梯度的形式)。目前,DNN训练有两种主要架构:all-reduce(全局-减少)和PS(Parameter Serve,参数服务器),其中all-reduce使用图形处理器(Graphics ProcessingUnit,GPU)进行训练,而PS使用GPU和中央处理器(central processing unit,CPU)两者来进行训练。近年来,all-reduce已经变得更加流行,因为它以较低的硬件成本胜过所有现有的PS实现。但是,all-reduce的应用范围不广,因为它不支持异步训练。此外,即使采用all-reduce,由于通信开销,仍然经常观察到训练性能远非线性缩放。PS虽然支持异步训练,但是它具有低性能、不支持跨框架以及高硬件成本的缺点。
发明内容
本公开提供了一种神经网络训练方法、装置、设备以及非暂时性计算机可读存储介质。
根据本公开的一方面,提供了一种神经网络训练方法,包括:由第一处理单元生成与所述神经网络有关的张量;由第二处理单元对第一处理单元生成的张量进行张量求和,得到全局张量和;以及由第一处理单元基于所述全局张量和执行所述神经网络的参数更新,其中,所述第一处理单元不同于所述第二处理单元。
根据本公开的另一方面,提供了一种用于神经网络训练的装置,所述装置包括:张量生成模块,生成与所述神经网络有关的张量;张量求和模块,对张量生成模块生成的张量进行张量求和,得到全局张量和;以及参数更新模块,基于所述全局张量和执行所述神经网络的参数更新,其中,所述张量生成模块和所述参数更新模块在第一处理单元上,所述张量求和模块在不同于第一处理单元的第二处理单元上。
根据本公开的又一方面,提供了一种用于神经网络训练的设备,所述设备包括处理器和其上存储有指令的存储器,其中,所述指令在由所述处理器运行时使所述处理器实施根据本公开的神经网络训练方法,其中,所述处理器包括第一处理单元和不同于第一处理单元的第二处理单元。
根据本公开的再一方面,提供了一种非暂时性计算机可读介质,其上存储有计算机指令,当所述计算机指令由计算机运行时,执行根据本公开的神经网络训练方法。
如以下将详细描述的,本公开提出了一种新的神经网络训练架构及其方法、装置、设备以及非暂时性计算机可读介质。和现有的神经网络训练架构all-reduce和PS相比,其具有最佳的性能、同时支持跨框架和异步训练、并且相对较低的硬件成本的优点。
应该理解,前面的一般描述和下面的详细描述两者都是示例性的,并且旨在提供要求保护的技术的进一步说明,而不旨在限制本公开的技术构思。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于字节跳动有限公司,未经字节跳动有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089702.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种改善外层蚀刻局部退锡不净的方法
- 下一篇:微服务管理平台





