[发明专利]一种有效训练深度卷积神经网络的方法在审
申请号: | 201710732378.4 | 申请日: | 2017-08-24 |
公开(公告)号: | CN107704917A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 郝群;蒋阳;曹杰;闫雷;高泽东 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 毛燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 有效 训练 深度 卷积 神经网络 方法 | ||
技术领域
本发明属于深度学习领域,涉及一种训练卷积神经网络的方法,特别是涉及一种训练深度卷积神经网络加速收敛和提高泛化能力的方法。
背景技术
卷积神经网络是深度学习的一种,它通过组合低层特征形成更加抽象的高层,从而发现数据的分布式特征表示。近年来,在图像识别等计算机视觉领域的研究和应用中,卷积神经网络较为流行,相比于传统算法,其识别率在图像分类任务上已取得了优异的表现。卷积神经网络训练的本质是在样本上是最小化网络输出损失函数的过程,即利用随机梯度下降算法沿网络连接反向传递损失函数的梯度,不断迭代更新网络权重使得损失函数最小,从而拟合出一个从输入到输出的非线性映射函数。
训练深度卷积网络较为困难。理论上三层神经网络宽度上神经元的个数足够多,就可以通过训练将其损失函数无限逼近于零,但实际训练中将引起严重的过拟合。相对而言,增加网络深度比增加网络宽度可以带来更好的泛化效果,且网络越深越好。然而网络深度的增加使得模型收敛困难,即训练深度网络时,由于激活函数的非线性性质,网络收敛速度较慢,甚至无法收敛。
为保障模型收敛,现有的深度卷积网络主要采用非饱和非线性激活函数ReLU、严格的网络权值初始化、精细调节的学习效率,并对每层信号进行BN(批量规范化)处理形成“卷基层+BN+ReLU”卷积单元,这在一定深度内取得了不错的效果,然而随着深度进一步增加,模型收敛速度显著变慢,训练困难问题并没有得到有效解决。综上所述,有效训练深度卷积神经网络是目前亟待解决的问题。
发明内容
本发明公开的一种有效训练深度卷积神经网络的方法要解决的问题是:提供一种有效训练深度卷积神经网络的方法,能有效提高深度卷积神经网络的收敛速度,提高模型的泛化能力。本发明适应于在深度学习相关领域工程实际应用。
本发明目的通过下述技术方案实现。
本发明公开的一种有效训练深度卷积神经网络的方法,对深度卷积神经网络中激活函数建立可训练的模型,使深度卷积神经网络成为线性初始状态,并在训练中逐步引入非线性变化最终达到收敛,在提高收敛速度的同时提高深度卷积神经网络模型的泛化能力。
本发明公开的一种有效训练深度卷积神经网络的方法,包括如下步骤:
步骤一:针对线性修正单元ReLU的缺点进行改进,提出自适应可延伸的线性修正单元Extensible ReLU(EReLU)。
线性修正单元ReLU的表达式为:
通过引入参数t,使线性修正单元ReLU公式(1)改进为自适应可延伸的线性修正单元EReLU公式(2)。
公式(2)写为y=max(0,x-t)+t,当参数t=0时,自适应可延伸的线性修正单元EReLU退化为线性修正单元ReLU。其中,参数t可正可负且采用权值共享策略,参数t数量与卷积核数量一致。参数t能够在训练过程中依靠链式法则完成自我学习。定义ti为神经网络中的任意一激活层中某个自适应可延伸的线性修正单元EReLU的参数,则
其中为ε损失函数,为从更深层的网络传来的梯度,为对该层所有神经元激活函数的加和,f(·)为自适应可延伸的线性修正单元EReLU,则由公式(2)得梯度为:
引入动量μ来更新参数ti:
引入参数t的数量与卷积核数量相同,避免引起过拟合。
所述的线性修正单元ReLU包括如下缺点:(1)由于线性修正单元ReLU屏蔽信号的负值区域,导致深度卷积神经网络模型在训练中存在死亡梯度,造成有效信号丢失,降低深度卷积神经网络模型表达能力;(2)由于线性修正单元ReLU屏蔽信号的负值区域,导致深度卷积神经网络模型每层权值期望随着训练进行出现偏移,降低网络收敛速度。
步骤二:初始化步骤一中的参数t,使深度卷积神经网络模型成为线性结构的初始形态,通过参数t自我学习,实现从线性到非线性的训练深度卷积神经网络方法。
将网络权值赋值为期望为0、方差为的正态分布,将步骤一得到的自适应可延伸的线性修正单元EReLU中参数t赋值为小于-1的实数,所述的参数t的实数优选-1。其中k为卷积核尺寸,n为卷基层输出通道数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710732378.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机硬件故障检测装置
- 下一篇:一种计算机散热性能测试装置