[发明专利]一种基于注意力机制的改进YOLOv3目标检测方法在审
| 申请号: | 202011396416.1 | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112508014A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 李永胜;孙长银;陆科林;徐乐玏 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 改进 yolov3 目标 检测 方法 | ||
本发明公开了一种基于注意力机制的改进YOLOv3目标检测方法,在主干网络Darknet‑53中引入注意力模块SKNet,根据输入自适应调整卷积核大小,聚焦到感兴趣区域;在特征提取网络的顶部引入空间金字塔池化模块SPP,增加网络的感受野;在特征融合网络中引入通道注意力模块SENet,为通道分配权重,充分提取通道的有效特征信息。实验表明,该发明相较于原始YOLOv3模型,可以有效检测小目标,加快训练的收敛速度,并在检测速度不受太大影响的前提下提高检测精度。
技术领域
本发明涉及一种基于注意力机制的改进YOLOv3目标检测方法,属于图像处理中的目标检测技术领域。
背景技术
目标检测作为图像理解和计算机视觉的基石,它是解决分割、场景的理解、目标的追踪、图像描述、事件检测和活动识别等更具有复杂性和更高层次的视觉任务的基础。目标检测在人工智能和信息技术等很多领域都有广泛的应用,如安保、人机交互、自动驾驶、机器人视觉、消费电子产品、基于内容的图像检索、智能视频监控和增强现实。
目前,基于深度学习的一系列目标检测算法大致可以分为两大流派:
1.两步走(two-stage)算法:先产生候选区域然后再进行CNN分类(R-CNN系列),
2.一步走(one-stage)算法:直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)。
之前的R-CNN系列虽然准确率比较高,但是即使是发展到Faster R-CNN,检测速度也仅为7FPS(原文为5FPS),而YOLO系列则在兼顾准确率的基础上大大提升了检测速度,使得检测的工作能够用到实时的场景。YOLO的检测思想不同于R-CNN系列的思想,它将目标检测作为回归任务来解决。YOLO神经网络在一次预测中,直接从完整图像预测出目标位置和概率,是一种端到端的网络结构。
YOLOv3是当前应用较多的一种目标检测方法,对YOLO做出了很多改进,使得网络在小目标检测和检测精度上都得到了较好的改善,并且检测速度并没有受到太大影响,依然符合检测实时性要求。但YOLOv3仍存在以下问题:目标定位的精度不高;训练收敛速度慢;小目标检测错误率较高。
发明内容
本发明的目的是提供一种基于注意力机制的改进YOLOv3目标检测方法,一定程度上可以有效检测小目标,加快训练的收敛速度,并在检测速度不受太大影响的前提下提高检测精度。
为达到此目的,本发明采用以下技术方案:
本发明所述的一种基于注意力机制的改进YOLOv3目标检测方法,包括以下步骤:
S1:针对一张原始图像,对其进行预处理,并归一化为416×416×3,得到训练样本;
S2:修改Darknet-53的网络结构,在每个残差层Basic Block模块中均引入自适应卷积核大小的注意力机制;
S3:在Darknet-53顶部引入空间金字塔池化模块SPP,以增加特征提取网络的感受野;
S4:用改进后的Darknet-53网络提取图像特征,并从网络的不同深度引出三个尺度的特征图(feature map)至特征融合支路;
S5:在三条特征融合支路中引入通道注意力机制,为通道分配权重,充分提取通道的有效特征信息;
S6:最后在三条支路上分别预测,得到多尺度目标检测结果。
作为本发明的进一步技术方案,所述步骤S1中,预处理方式包括随机旋转、水平翻转和标准化处理。
作为本发明的进一步技术方案,所述步骤S2中,在残差层Basic Block模块中引入自适应卷积核大小的注意力机制的方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011396416.1/2.html,转载请声明来源钻瓜专利网。





