[发明专利]一种神经网络增强方法、系统及其应用在审
申请号: | 202011330421.2 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112416293A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 赵帅;周立广;蔡登;林天麟;徐扬生 | 申请(专利权)人: | 深圳市人工智能与机器人研究院;香港中文大学(深圳) |
主分类号: | G06F7/483 | 分类号: | G06F7/483;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 徐凯凯 |
地址: | 518129 广东省深圳市龙岗区坂*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 增强 方法 系统 及其 应用 | ||
本发明公开了一种神经网络增强方法、系统及其应用,方法包括步骤:将给定的神经网络模型划分成若干个子神经网络;对每个子神经网络进行初始化处理;应用不同的数据增强方法对每个子神经网络进行训练,使每个子神经网络学到关于相同数据的不同知识;在训练过程中,计算每个子神经网络的输出的交叉熵损失函数,以及每个子神经网络的输出之间的协同训练损失函数,将交叉熵损失函数以及协同训练损失函数结合作为优化目标函数;根据优化目标函数更新每个子神经网络的权重参数,达到预设训练次数后结束训练,得到训练好的子神经网络。本发明在不显著增加甚至减少网络参数量或者浮点运算数的情况下,可实现比单个神经网络模型更好的图像分类表现和性能。
技术领域
本发明涉及神经网络领域,特别涉及一种神经网络增强方法、系统及其应用。
背景技术
图像分类是计算机视觉中最基本的问题之一,其目的是给图像分配一个类别标签,这个标签代表着图像中显著物体的类别,如人、马、树、道路等。实际生活中,图像分类可以广泛地应用到智能家居、交通系统、机器人、军事、工业化生产线等场景。在科学研究领域,图像分类的研究又是其他计算机视觉问题,如目标检测、语义划分、行人重识别等的基础,图像分类的研究能为这些领域带来新的启发和思路。近年来,随着卷积神经网络的高速发展,基于神经网络的深度学习方法成为了图像分类领域的研究主流。自这股深度学习的浪潮兴起以来,如何设计一个好的神经网络模型来达到更好的图像分类效果又一直是研究的重点和热点。
在深度学习的发展早期,神经网络模型设计往往是依据专家只是手动设计的,利用残差短接结构和增加网络深度的方法可提高网络模型的表现,现在这些方法在网络设计中已经非常普遍。近年来,自动化机器学习的呼声越来越高,人们希望机器能够自动的对于某些任务学习到一个最好的模型等;现有研究提出利用强化学习的方法来学习一个神经网络模型,并在一些任务和数据集上取得了不错的效果。时至今日,依靠专家知识手动设计网络和自动学习网络这两种方法,相辅相成,共同促进,都是神经网络设计不可或缺的手段。
无论采用何种方法设计网络,增加网络的深度、宽度和输入图像分辨率来获得更好的实际表现都已是共识。现有研究提出增加神经网络的宽度来在网络深度不变的情况下获得更好的表现;还提出综合地从网络宽度、网络深度和输入图像分辨率三个维度来增加网络的性能,以获得比单纯地增加其中某一维度更好的效果。
增加神经网络的宽度以获取更好的表现,这种方法在当网络本身的宽度比较小的时候,能够起到立竿见影的效果。然而,神经网络模型的表现并不是随着神经网络的宽度增长而线性增长的。当神经网路的宽度增长到达某个程度之后,再继续增长神经网络的宽度所获得的收益非常小;而与此相对的,增加神经网络宽度所带来的额外计算资源开销却常常令人难以承受。如图1和图2所示,w是网络的宽度系数,横轴是计算开销,这里用神经网络的参数量和浮点运算数来表示,数值越大代表神经网络在实际应用中需要的计算资源越多;纵轴是网络在不同数据集上的分类精度,越高越好。在初期阶段,增加网络宽度能够为两个模型在相应数据集上带来一定的提升;然而随着网络宽度的增长,增加不到0.5%的精度却需要成倍的增加网络的参数数量或者是浮点运算数(floating point operations,FLOPs)。这说明单纯的增加网络的宽度并不是一种高效的神经网络增强方法;单纯地增加网络的深度或者分辨率也存在类似的现象。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种神经网络增强方法、系统及其应用,旨在解决现有技术单纯增加网络宽度达到一定程度的宽度后,所得到的模型表现增益有限的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种神经网络增强方法,其中,包括步骤:
将给定的神经网络模型划分成若干个子神经网络,每个子神经网络中均包括部分所述神经网络模型的参数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市人工智能与机器人研究院;香港中文大学(深圳),未经深圳市人工智能与机器人研究院;香港中文大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011330421.2/2.html,转载请声明来源钻瓜专利网。