[发明专利]一种神经网络模型的训练方法、装置及芯片有效

专利信息
申请号: 201611076461.2 申请日: 2016-11-29
公开(公告)号: CN108122027B 公开(公告)日: 2021-01-12
发明(设计)人: 白小龙;张长征;夏命榛 申请(专利权)人: 华为技术有限公司
主分类号: G06N3/04 分类号: G06N3/04
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 冯艳莲
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 神经网络 模型 训练 方法 装置 芯片
【说明书】:

发明实施例涉及机器学习领域,尤其涉及一种神经网络模型的训练方法、装置及芯片,用以降低神经网络模型训练过程中的服务器模块和各个工作模块之间的通讯量。本发明实施例中根据每层的模型参数集合中的预估数据量和输出数据的预估数据量,确定每层的模型训练方式,在第j层为模型并行训练方式的情况下,由于第二输出数据为m个工作模块第j‑1层训练的输出数据,因此工作模块根据第二输出数据进行模型参数训练,可直接得到模型参数的全局梯度,相比于现有技术中工作模块向服务器模块上推模型参数的局部梯度,并从服务器模块下拉模型参数的全局梯度之后才得到模型参数的全局梯度的方案,减少了工作模块和服务器模块之间的通讯量。

技术领域

本发明实施例涉及神经网络模型训练领域,尤其涉及一种神经网络模型的训练方法、装置及芯片。

背景技术

自深度学习在大规模图像分类数据集上获得巨大成功之后,无论是学术界、政府还是工业界都在大力推动深度学习的发展,并不断取得新的成绩。前馈神经网络模型作为深度学习中主要的一种模型形式,目前开始广泛应用于人脸识别、图像分类、目标检测、视频分析等任务,正在迅速被各大机器视觉厂商所采用用于智能化图像、视频处理等产品。目前前馈神经网络模型的深度越来越深,结构越来越复杂,例如,在很多智能图像、视频处理的任务中,数据每时每刻都在不断增加,这就要求训练系统的训练速度足够快且快速更新以满足最新的任务需求。

目前前馈神经网络模型的训练加速主要依靠大规模分布式并行计算系统进行。目前较为常用的是参数服务器(英文可称为parameter sever)计算架构,配合有效的随机梯度下降算法(英文可称为Stochastic gradient descent)进行训练。图1示例性示出了现有技术中一种分布式系统架构示意图,如图1所示,包括服务器模块集合(英文可称为servers)101和工作模块集合(英文可称为workers)102,服务器模块集合可包括多个服务器模块(英文可称为server),工作模块集合可包括多个工作模块(英文可称为worker),服务器模块与主服务器(英文可称为master)节点类似,工作模块可指代计算执行器。分布式系统架构中包括多个分布式的节点,每个节点可包括一个或多个工作模块,也还可包括一个或多个服务器模块。

以图1为例,对分布式系统架构下服务器模块和工作模块之间的信令交互过程进行详细介绍。图1中包括N个工作模块以及M个服务器模块,N和M为大于等于1的整数。神经网络模型包括L层,L为大于等于1的整数,每层包括多个模型参数。每个工作模块进行多次迭代计算,在每次迭代计算中,工作模块通过对L层进行前向算法和后向算法,得到神经网络模型中的模型参数的局部梯度,之后每个工作模块将所有模型参数的局部梯度上传至服务器模块,服务器模块计算出每个模型参数的全局梯度,并将全局梯度从服务器模块下拉至每个工作模块,每个工作模块根据得到的每个模型参数的全局梯度更新各个模型参数,并根据更新后的各个模型参数进行下一次迭代。

上述方案中,由于神经网络模型的L层中包括大量的模型参数,因此应用该方案将导致各个工作模块向服务器模块上推大量的模型参数的局部梯度,以及从服务器模块下拉大量的模型参数的全局梯度,导致服务器模块和各个工作模块之间存在较大的信息通讯量的问题。

发明内容

本发明实施例提供一种神经网络模型的训练方法、装置及芯片,用以降低神经网络模型训练过程中的服务器模块和各个工作模块之间的通讯量,从而提高神经网络模型训练速度。

第一方面,本发明实施例提供一种神经网络模型的训练方法,方法用于包括M个工作模块的训练系统,神经网络模型包括L层,M和L为大于等于1的整数;针对神经网络模型的L层中的每层,都使用M个工作模块中的至少一个工作模块对该层进行训练;方法包括:针对神经网络模型的L层中的每层,至少一个工作模块中的每个工作模块根据该层的模型参数集合中的预估数据量和输出数据的预估数据量,确定该层的模型训练方式;其中,模型训练方式包括数据并行训练方式和模型并行训练方式;模型参数集合包括该层的所有模型参数。至少一个工作模块中的每个工作模块都执行以下操作以对该层进行训练:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611076461.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top