[发明专利]神经网络模型的训练和应用方法、装置、系统及存储介质在审
申请号: | 201911115314.5 | 申请日: | 2019-11-14 |
公开(公告)号: | CN112446487A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 刘俊杰;陈则玮;温东超;陶玮;汪德宇 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 迟军;李艳丽 |
地址: | 日本国东京都*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 应用 方法 装置 系统 存储 介质 | ||
本发明提供一种神经网络模型的训练和应用方法、装置、系统及存储介质。所述训练方法包括:根据神经网络模型的训练迭代次数和计算精度确定约束阈值范围,将权重的梯度约束在所述约束阈值范围内,使得当由于量化误差导致低精度的权重的梯度出现畸变的时候,通过对梯度的约束,修正梯度出现的畸变,使训练后的网络模型能够达到预期的性能。
本发明请求2019年08月29日提交的、申请号为201910807591.6、发明创造名称为“神经网络模型的训练和应用方法、装置、系统及存储介质”的中国发明申请的优先权,以全文引用方式并入到本文中。
技术领域
本发明涉及深度神经网络(Deep Neural Networks,DNN)的建模领域,尤其涉及一种适用于不同计算精度的神经网络模型的训练方法。
背景技术
深度神经网络是一种具有复杂网络架构的模型,常见的神经网络模型有卷积神经网络(Convolutional Neural Network,CNN)模型、循环神经网络(Recurrent NeuralNetwork,RNN)模型和图神经网络(Graph Neural Network,GNN)模型等。图1例示了一个简单的神经网络模型架构(未示出具体的网络架构)。将待训练的数据x(特征图)输入到神经网络模型F中后,x在网络模型F中至上而下逐层进行运算,最终从模型F输出符合一定分布要求的输出结果y。
以图2和图3所示的CNN模型为例,假设该模型中存在包括三个权重w1、w2和w3的卷积层,在图2所示的前向传播(Forward Propagation)过程中,该卷积层的输入特征图与权重w1、w2和w3分别进行卷积运算后,得到该卷积层的输出特征图并向下一层输出。通过逐层运算,最终得到网络模型的输出结果y。将该输出结果y与用户期望的输出结果y*进行比较,如果两者的误差没有超过预定阈值,则表示当前网络模型的性能较好;反之,如果两者的误差超过了预定阈值,则需要利用实际输出结果y和期望输出结果y*之间的误差,在图3所示的反向传播(BackPropagation)过程中,对卷积层中的权重w1、w2和w3进行更新,以使网络模型的性能更优。这里,对网络模型中各权重的更新过程即为网络模型的训练过程。
在对网络模型中的各权重进行更新的过程中,根据误差评估函数L(y,y*)(其输入为实际输出结果y和期望输出结果y*,用于表示两者间的误差的函数),在网络模型中由下至上逐层计算各权重w的偏导数(梯度)g。假设当前待训练的网络模型已经过了t次训练(即训练迭代次数为t),网络模型中有若干个要被更新的权重,当前正要被更新的权重是wt。首先,根据以下公式(1)计算权重wt的梯度gt;然后,再根据以下公式(2)来更新权重wt,得到第t+1次(本次)训练后的权重wt+1。
wt+1=wt-ηt gt 公式(2)
其中,ηt是更新步伐尺度(又名学习率),其可为常量亦可为变量,用于尺度化梯度gt。
根据以上针对权重wt的更新过程可知,计算梯度是权重更新过程的重要步骤,但是,以上公式(2)中仅考虑了权重wt与梯度的关系,即仅考虑了最近一次更新后的梯度,而没有考虑到历史梯度(前若干次训练迭代中的梯度)对本次训练迭代中的梯度的影响,从而使得在梯度位置产生的方向惯性较小,不利于神经网络模型训练的加速。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911115314.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水性聚合物、分散液与水性涂料
- 下一篇:存储器装置