[发明专利]一种深度卷积神经网络及其执行该网络的系统在审
申请号: | 202111078499.4 | 申请日: | 2021-09-15 |
公开(公告)号: | CN114021611A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 何品翰;陈智 | 申请(专利权)人: | 苏州卓晋通信有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 杨芬 |
地址: | 215000 江苏省苏州市昆山*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 卷积 神经网络 及其 执行 网络 系统 | ||
本发明揭示了一种深度卷积神经网络及其执行该网络的系统,包括顺序连接的多个汇集卷积层,每个汇集卷积层获取输入并生成输出,每个汇集卷积层包括:至少一个卷积层,用于使用激活函数对输入应用至少一个卷积操作;以及池层,用于将池操作应用于所述至少一个卷积层以生成输出;多个全局平均池层,每个全局平均池层链接到多个池化卷积层中的相应一个的输出,每个全局平均池层将全局平均池化操作应用于相应池化卷积层的输出;终端隐藏层,用于组合全局平均池层的输出;以及softmax层,用于将softmax操作应用于终端隐藏层的输出。本发明能够有效的解决中间隐藏层学习的特征丢失以及梯度消失问题。
【技术领域】
本发明属于人工神经网络技术领域,特别是涉及一种深度卷积神经网络及其执行该网络的系统。
【背景技术】
深度卷积神经网络(CNN)被公认为是计算机视觉和其他应用的有力工具。例如,人们发现深度CNN能够从原始像素值中提取丰富的层次特征,并在计算机视觉的分类和分割任务中实现惊人的性能。然而,现有的深度CNN方法可能会遇到各种问题;例如,在中间隐藏层学习的特征丢失和梯度消失问题。
CNN通常由几个级联卷积层组成,包括完全连接的人工神经元;它还可以包括池化层(平均池或最大池)、激活层、用于分类和/或检测任务的softmax层。卷积层通常用于学习输入数据的空间局部连通性以进行特征提取。池化层通常是为了减少接受域,从而防止过拟合。激活层,例如非线性激活,通常用于增强学习特征。标准CNN体系结构的各种变体可以使用更深(更多层)和更宽(更大层大小)的体系结构。为了避免深度神经网络的过度拟合,可以使用一些正则化方法,如dropout或dropconnect;它在训练过程中以一定的概率关闭学习神经元,并在训练阶段阻止神经元的共同适应。
一些深度CNN架构方法的成功部分在于使用了适当的非线性激活函数,这些函数定义了从输入到输出的值转换。研究发现,与饱和的对应函数相比,采用线性整流激活函数的整流线性单元(ReLU)可以大大提高CNN的性能,实现更高的精度和更快的收敛速度。ReLU只在正端的使用单位映射,而不使用负的输入,使得训练中可以有效地进行梯度传播。其简单的功能可以在不需要无监督预训练的情况下对深度神经网络进行训练,并可用于非常深度神经网络的实现。然而,ReLU的一个缺点是,在向后传播的训练中,输入的负部分被简单地丢弃而不更新。这可能会导致死亡神经元(未使用的处理单元/节点)的问题,这些神经元可能永远不会再次被激活,并可能导致在反向传播过程中丢失特征信息。
为了缓解这个问题,现有技术中提出了使用其他类型的激活函数的方法,例如,Leaky ReLU激活函数,将一个非零的斜率赋给负的部分。然而,Leaky ReLU使用一个固定的参数,在学习过程中不会更新。一般来说,这些其他类型的激活功能缺乏在积极和消极方面模仿复杂功能的能力,以便提取必要的信息传递到下一个层次。进一步的方法是使用maxout函数,从每个神经元的k个线性函数中选择最大值作为输出。虽然maxout函数具有模仿复杂函数的潜力,并在实践中表现良好,但它需要的参数比训练所需的多得多,因此在实时和移动应用程序中计算和内存使用方面代价昂贵。
深度CNN的另一个方面是网络的大小和不同层的互连架构。一般来说,网络的大小对神经网络的性能有很大的影响,因此,通常可以通过简单地增加其大小来提高性能。大小可以通过深度(层数)或宽度(每层的单位/神经元数)来增加。虽然这种增加可能在有大量标记训练数据的情况下效果很好,但当标记训练数据的数量很小时,这种增加可能会导致过拟合,并可能在未标记数据的推断阶段效果很差。此外,大型神经网络的训练需要大量的计算资源。一个庞大的网络,特别是一个没有必要如此庞大的网络,最终可能会浪费宝贵的资源;因为大多数已学习的参数最终可能被确定为零或接近零,而可以删除。
现有的深CNN方法通常会遇到各种问题。例如,在中间隐藏层中学习到的特征可能会在经过许多后续层后在分类器的最后阶段丢失。另一个是梯度消失问题,这可能会导致训练困难甚至不可行。
【发明内容】
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州卓晋通信有限公司,未经苏州卓晋通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078499.4/2.html,转载请声明来源钻瓜专利网。