[发明专利]一种神经网络模型训练方法、装置及电子设备有效

申请号：	201611034481.3	申请日：	2016-11-16
公开（公告）号：	CN108073986B	公开（公告）日：	2020-05-12
发明（设计）人：	何长青;王宇光;陈伟	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06K9/62
代理公司：	北京华沛德权律师事务所 11302	代理人：	马苗苗
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络模型训练方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及模式识别领域，公开了一种神经网络模型训练方法、装置及电子设备，以解决现有技术中通过多计算设备异步更新算法训练神经网络模型时，训练的稳定性较低的技术问题。该方法包括：在对神经网络模型进行训练的过程中，如果至少两个第一计算设备训练的已训练轮数满足预设条件，基于所述神经网络模型的主模型的权重值对每个第一计算设备对应的所述主模型的副本的权重值进行同步更新，从而能够在不显著增加训练时间的情况下，增加了神经网络模型的权重值的同步策略，保证了主模型以及主模型的各个副本的权重值的一致性，从而达到了增加对神经网络模型训练的稳定性的技术效果。

技术领域

本发明涉及模式识别领域，尤其涉及一种神经网络模型训练方法、装置及电子设备。

背景技术

神经网络(NN：Neural Networks)模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

现有技术中，往往通过学习训练过程调整神经网络模型的权重值，进而最终获得收敛的神经网络模型。图形处理器(GPU:Graphic Processing Unit)往往可以用于大量并行计算，故而现有技术中可以通过GPU来训练神经网络模型，而为了提高训练速度，则往往采用多GPU来训练，然而在采用多GPU异步更新算法训练神经网络模型时会存在梯度值过时的问题，梯度值过会影响模型的收敛性(例如：导致无法收敛、或者收敛缓慢等等)，从而影响对神经网络模型训练的稳定性。

发明内容

本发明提供一种神经网络模型训练方法、装置及电子设备，以解决现有技术中通过多计算设备异步更新算法训练神经网络模型时，训练的稳定性较低的技术问题。

第一方面，本发明实施例提供一种神经网络模型训练方法，包括：

在对神经网络模型进行训练的过程中，确定出至少两个第一计算设备训练的已训练轮数；

判断所述已训练轮数是否满足预设条件；

如果所述已训练轮数满足所述预设条件，基于所述神经网络模型的主模型的权重值对每个第一计算设备对应的所述主模型的副本的权重值进行同步更新。

结合第一方面，在第一种可能的实现方式中，所述判断所述已训练轮数是否满足预设条件，包括：

判断所述已训练轮数是否为同步周期的倍数；

其中，如果判断结果为是，确定出所述已训练轮数满足所述预设条件。

结合第一方面，在第二种可能的实现方式中，所述确定出至少两个第一计算设备训练的已训练轮数，包括：通过控制任务确定出所述至少两个第一计算设备训练的已训练轮数；

所述判断所述已训练轮数是否满足预设条件，包括：通过所述控制任务判断所述已训练轮数是否满足所述预设条件。

结合第一方面，在第三种可能的实现方式中，所述基于所述神经网络模型的主模型的权重值对每个第一计算设备对应的所述主模型的副本的权重值进行同步更新，包括：