[发明专利]一种基于改进Faster RCNN的行人检测方法有效
申请号: | 202110437461.5 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113052136B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 卞海彤;刘斌 | 申请(专利权)人: | 南京工业大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/25;G06V10/762;G06V10/774;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
地址: | 211816 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 faster rcnn 行人 检测 方法 | ||
本发明涉及一种基于Faster RCNN的行人检测方法,属于目标检测和计算机视觉技术领域。本发明针对在行人检测的实际应用中,类别之间的比例严重不平衡,导致预测结果将存在偏差这一问题,基于检测效果较好的Faster RCNN检测网络做出改进。本发明包括:将获取的行人检测数据集进行预处理;单独训练RPN网络,采用改进的K‑meansSMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R‑CNN的训练样本;训练RPN网络和Fast R‑CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。本发明方法降低了漏检率,提高了基于Faster RCNN的行人检测模型的检测性能。
技术领域
本发明属于人脸识别领域,尤其涉及一种基于改进Faster RCNN的行人检测方法。
背景技术
随着科学技术的不断提高和互联网应用的高速发展,人们的生活正发生着日新月异的变化,人脸识别、指纹解锁、语音助手等人工智能技术的应用也逐渐随处可见。计算机视觉作为人工智能技术的重要一环,通过计算机等设备代替人类的眼睛,让人们不再受制于视野的局限性,通过对视频或图片的处理,达到目标检测、目标追踪等目的,所以,计算机视觉技术具有广泛的应用场景。同时,计算机视觉也因为不断更新的计算机软硬件、图像采集和处理设备等后备保障而在飞速发展。而行人检测技术一直是计算机视觉研究中的热点和难点。
行人检测简单来说,就是判断视频或图像中是否存在行人并给出行人较为精确的位置信息。行人检测技术与行人重识别、行人跟踪等技术结合,有着很强的实用价值,被广泛应用于如智能交通系统、智能监控系统、机器人、人机交互系统等领域。因此,行人检测越来越受到工业界和学术界研究者的重视。近年来,深度卷积神经网络在计算机视觉任务中取得了巨大的成功,采用深度学习方法的目标检测总是有较好的效果。因此,研究人员试图利用一些成功的深度学习技术来解决行人检测任务。在大多数行人检测技术的应用当中,行人检测算法不仅需要有较高的检测速度,同时,还需具备较高的检测精度,因此本专利对基于区域建议的Faster RCNN进行改进,来提高行人检测性能。
Faster RCNN是在R-CNN和Fast RCNN的基础上的改进,是一种基于区域建议的两阶段检测算法。传统的目标检测算法流程包括生成候选框、提取候选框特征、对候选框进行分类与回归,而Faster RCNN将这些步骤通过一个卷积神经网络来实现,这样既简化了传统的检测系统,又在很大程度上提升了训练效率。Faster RCNN框架主要包含基础特征提取网络、区域建议网络和Fast RCNN这三个部分,其中区域建议网络和Fast RCNN共享卷积特征提取网络,可以大大减少计算时间。Faster RCNN整体检测流程如图1所示。
Faster RCNN算法的检测流程分为三个步骤:(1)将任意尺寸的图像缩放为网络预设的尺寸后,输入进一个基础CNN网络,在共享卷积层中,向前传播至检测网络的特有卷积层,提取目标图像的特征向量;(2)将特征图输入进RPN网络,生成候选区域与该区域属于目标行人的概率得分,采用非极大值抑制法,筛选出概率大的候选区域;(3)将生成的候选框经过感兴趣区域池化(Region of Interest Pooling,ROI Pooling)后,通过Fast RCNN进行分类与位置回归操作。经过这三个步骤,基本可以得到最终的检测结果。
Faster RCNN作为一个两阶段的检测算法亮点在于提出了RPN,RPN位于整个Faster RCNN框架的中间部分,用于提取候选框,耗时少,可以很容易与Fast R-CNN结合,成为一个整体。在RPN阶段会生成一些锚点,特征图的每个点都会以这个点为中心预测k个锚框,原始的Faster RCNN模型包含了3种尺度[8,16,32]和3种宽高比[1,0.5,2]共9种锚框,所有锚框是输入图像上对应的区域,在RPN阶段会生成大约20000个anchor,再使用非极大值抑制算法对整张图片产生的候选区域中的多余的候选区域进行剔除,用来预测目标的边界框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110437461.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交易数据查询方法、装置、计算机设备和存储介质
- 下一篇:一种门把手