[发明专利]一种基于卷积神经网络的图像目标检测方法在审
申请号: | 202210123908.6 | 申请日: | 2022-02-10 |
公开(公告)号: | CN114511710A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 李永;王学舟 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/764;G06V10/82;G06V10/80;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 图像 目标 检测 方法 | ||
本发明公开了一种基于卷积神经网络的图像目标检测方法,包含以下步骤:对数据集进行预处理,使用数据增强的方法;对数据使用Mosaic数据增强方法,将随机四张图片拼接在一起以提高数据训练效果;参照YOLOv2构建基础卷积神经网络,每个卷积单元包含一个卷积层、一个BatchNormalization层、一个Relu激活层,整个网络结构中没有全连接层,全部使用卷积层;在卷积神经网络中使用残差网络结构,可加深网络深度,是模型学习更好的特征;使用多尺度特征图融合以提高网络模型在不同尺度图像上的检测效果,提高目标检测模型的鲁棒性;在数据增强之后做好数据标注,然后使用聚类方法对训练集中的边界框做聚类分析,通过聚类分析结果选择合适的先验框,便于模型学习。
技术领域
本发明属于人工智能、深度学习和计算机视觉领域,是一种基于卷积神经网 络的图像目标检测方法,借鉴当前在目标检测领域效果较好的一些经验,构建卷 积神经网络,提供一种在图像目标检测领域的方法。
背景技术
图像目标检测是人工智能在计算机视觉领域的一个重要应用。现在深度学习 模型已经取代传统的机器视觉方法而成为目标检测领域的的主流解决方法。通常 来讲目标通常来讲目标检测关注特定的物体目标,要求同时获得这一目标的类别 信息和位置信息,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描 述(类别和位置)。深度学习检测模型分为两阶段(2-stage)检测模型和单阶段 (1-stage)检测模型,两阶段检测模型比如R-CNN系列模型,单阶段检测模型 比如YOLO系列模型和SSD模型。两种模型各有优势,当前YOLO系列模型的 快速实时特点使得其算法广泛应用于目标检测领域,本发明参考YOLOv2的网 络结构,重新搭建卷积神经网络结构,并引入残差网络结构,以便加深网络,提高对于小目标的检测效果;同时使用多尺度特征图融合以提高网络对于不同尺度 图像的检测效果,提高模型的鲁棒性。
对于数据预处理,使用当前数据增强技术以提高模型的训练效果,将图像进 行亮度、对比度、形态上的细微改变,扩展训练数据集;对数据使用Mosaic数 据增强方法,其主要思想是将四张图片进行随机剪裁,再拼接到一张图上作为训 练数据。这样做的好处是丰富了图片的背景,并且四张图片拼接在一起变相地提 高了batch_size,在进行batchnormalization的时候也会计算四张图片,所以对本 身batch_size不是很依赖,间接降低了对GPU的硬件要求。
残差网络在2015年被提出,是一种简单与使用并存的网络结构,在检测、 分割、识别等领域得到了广泛的应用。图1为残差网络结构,它对每层的输入做 一个reference(X),学习形成残差函数,而不是学习一些没有reference(X)的函数。 这种残差函数更容易优化,能使网络层数大大加深,进而使整体网络的新能得到 提升。
在目标检测网络中,需要检测的目标大小不一,对于较大的目标相对来说比 较容易检测,但是对于较小尺寸的目标,在网络下采样的过程中容易丢失特征, 检测难度较大,常常出现漏检的情况。本发明采用多尺度特征融合的方式做预测, 网络结构输出两种尺度的特征,分别输出尺寸为17×17和34×34的特征图,两 种尺寸的特征图分别用来检测大尺寸目标和小尺寸目标。
在网络训练中,先验框的设置会对网络的训练难度造成一定的影响,合适的 先验框设置更有利于模型的学习,从而做出更好的预测。因此本发明对于先验框 的维度(长和宽)不进行手动设定,而是使用K均值聚类方法对训练数据集中 的边界框进行聚类分析。因为设置先验框的主要目的是为了使的预测框与真实框 的交并比更好,所以聚类分析选用先验框与真实框的IOU值作为距离指标: d=1-IOU。然后综合考虑模型复杂度和召回率,选择合适个数的聚类中心作为先 验框。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210123908.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序