[发明专利]用于训练神经网络的方法及神经网络训练系统在审

申请号：	201910223103.7	申请日：	2019-03-22
公开（公告）号：	CN110414664A	公开（公告）日：	2019-11-05
发明（设计）人：	玻那·乔斯·哦拉都比;提塔许·瑞许特;乔治·亚德里安·凯特尔;莱恩·麦可·海雀	申请（专利权）人：	三星电子株式会社
主分类号：	G06N3/04	分类号：	G06N3/04;G06N20/00;G06N3/08
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	刘培培;黄隶凡
地址：	韩国京畿道水***	国省代码：	韩国;KR
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络神经网络训练训练神经网络一次迭代迭代方式输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明阐述一种用于训练神经网络的方法及神经网络训练系统。所述方法包括提供神经网络的至少一个可连续微分的模型。所述至少一个可连续微分的模型专用于所述神经网络的硬件。所述方法还包括使用所述至少一个可连续微分的模型以迭代方式训练所述神经网络，以为所述神经网络提供至少一个输出。每一次迭代均使用前一次迭代的至少一个输出以及所述至少一个可连续微分的模型中的当前可连续微分的模型。

[相关申请的交叉参考]

本申请主张在2018年4月28日提出申请且名称为“用于离线训练神经网的硬件感知算法(A HARDWARE-AWARE ALGORITHM FOR OFF-LINE TRAINING OF NEURAL NETS)”的序列号为62/664,142的临时专利申请、及受让给本申请的受让人的在2018年4月28日提出申请且名称为“用于离线训练神经网的硬件感知算法(A HARDWARE-AWARE ALGORITHM FOROFF-LINE TRAINING OF NEURAL NETS)的序列号为62/664,102的临时专利申请、以及在2018年9月5日提出申请且并入本申请供参考的序列号为16/122,789的非临时专利申请的权利。

技术领域

本公开大体来说涉及一种用于训练神经网络的方法，且更具体来说，涉及改善神经网络的推断准确性。

背景技术

涉及到深度学习神经网络(Neural Network，NN)或神经形态计算(例如，图像识别、自然语言处理以及更一般来说各种图案匹配或分类任务)的应用正迅速变得与通用计算一样重要。神经网络或神经元的基本计算元素包括多个输入、及输出。与每一个输入相关联的是数字或权重。神经元的激活是通过(使用权重)执行各输入的加权求和来计算的，接着通过激活函数来对输入的加权和进行处理。所述激活函数通常是阈限函数(thresholding function)。因此，神经元一般来说执行向量-矩阵乘积运算(vector-matrix product)或乘法-累加(multiply-accumulate，MAC)运算，接着对所述运算进行阈限。

由神经网络的数学描述定义的权重是实数，且因此为连续的。然而，神经网络的许多硬件构建方式使用或主张使用权重真实值的低精度离散近似值。举例来说，一些最近的神经网络是同或网络或者门控同或(gated XNOR，GXNOR)网络，其仅使用两个(二进制)离散层级或三个(三进制)离散层级。这种神经网络可使用-1及1(二进制)权重或-1、0及1(三进制)权重。其他硬件构建方式可使用不同数目的离散权重。尽管从硬件角度看这种精度降低的权重很有吸引力，但是在可实现的推断准确性方面存在潜在的损失。在芯片外训练(off-chip training)的情形中尤其如此，在芯片外训练中，训练是对与实际用于推断的系统不同的系统执行的。

推断准确性的损失程度取决于权重的详细情况以及所使用的训练算法。直接的量化方式是离线地使用浮点权重来简单地执行标准训练，且接着选择离散的“窗口(bin)”来向窗口中放置数学权重。这种算法的改进形式将窗口的大小视为超参数，所述超参数将针对验证数据进行优化来实现最好的准确性。然而，即使在具有这种改进形式的情况下，使用低精度权重的神经网络仍可能会遭受相当大的推断准确性损失。

期望改善使用较低精度权重的神经网络(即使这种神经网络被离线地训练)的推断准确性。

发明内容

本公开涉及一种用于训练神经网络的方法，所述方法包括：提供所述神经网络的至少一个可连续微分的模型，所述至少一个可连续微分的模型专用于所述神经网络的硬件；使用所述至少一个可连续微分的模型以迭代方式训练所述神经网络，以为所述神经网络提供至少一个输出，每一次迭代均使用前一次迭代的至少一个输出以及所述至少一个可连续微分的模型中的当前可连续微分的模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三星电子株式会社，未经三星电子株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910223103.7/2.html，转载请声明来源钻瓜专利网。

上一篇：神经网络的卷积实现方法及相关产品
下一篇：一种基于深度神经网络的网络表示学习方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于训练神经网络的方法及神经网络训练系统在审

专利文献下载