[发明专利]一种基于区域卷积神经网络的实时目标检测方法在审
申请号: | 201611252957.0 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106599939A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/32;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区域 卷积 神经网络 实时 目标 检测 方法 | ||
技术领域
本发明涉及目标检测领域,尤其是涉及了一种基于区域卷积神经网络的实时目标检测方法。
背景技术
物体检测可快速检测图像中的人类、动物、食物、家居等多种物体,可用于安防、交通等众多领域,近些年在目标检测领域的进展主要是由区域建议方法和基于区域的卷积神经网络贡献的。虽然基于区域的神经网络和传统的方法相比计算昂贵,在空间和时间上的花费多,且物体检测速度慢,是在现阶段检测系统测试计算时间遇到的瓶颈。
本发明提出了一种基于区域卷积神经网络的实时目标检测方法,主要包括输入图像、目标检测系统、交替优化学习共享、分类器分类检测。将任意大小的图像作为输入,在输入图像的同时将多个感兴趣区域(RoIs)输入,区域建议网络提出了检测区域,R-CNN探测器利用提出的检测区域,完全连接层共享所有空间位置,采用交替训练优化来学习共享特征,通过分类器分类检测。使用RPNs来生成区域建议,使用共享权值减少了网络参数,使得区域建议这一步基本无花费;其中区域建议网络(RPN)和区域卷积神经网络网络(R-CNN)共享卷积层之间的两个网络,使得成本大幅减少,检测速度快,效率高。
发明内容
为解决上述问题,本发明提供一种基于区域卷积神经网络的实时目标检测方法,主要包括输入图像(一)、目标检测系统(二)、交替优化学习共享(三)、分类器分类检测(四)。
其中输入图像(一),将任意大小的图像作为输入,在输入图像的同时将多个感兴趣区域(RoIs)输入,RoI pooling层将图像中的RoI定位到特征图像中,将其输入到固定大小的特征图中。
进一步地,RoI Pooling层输入图像通过全连接映射到特征向量,用相同的空间尺寸(3×3)的特征映射,将RoI在特征图像中定位,获取输出向量,生成区域建议,增加两个卷积层实现区域建议网络,一个用来将每个特征图的位置编码成一个向量,另一个是对每一个位置输出物体分数。
其中目标检测系统(二),主要包括两个模块,区域建议网络(RPN)和区域卷积神经网络网络(R-CNN)探测器。
进一步地,区域建议网络(RPN)模块指示R-CNN对哪个区域进行检测,因为我们的最终目标是使用一个快速R-CNN对象检测网络进行计算,区域建议网络和R-CNN共享一个共同的卷积层,将一个任意大小的图像作为输入,输出一组矩形对象的建议,每一个对象都有一个得分,采用完全卷积网络对这个过程进行建模,通过共享的滑动卷积层输出卷积特征映射的小网络在最后卷积得到的特征图上进行滑动扫描,这个滑动的网络每次与特征图上N×N的窗口全连接,每个滑动窗口被映射到低维特征,此特征进入两个完全连接层:box回归层(reg)和box分类层(cls),使用k=3时,输入图像上的有效感受域是大的,小网络运行在滑动窗口时,完全连接层共享所有空间位置。
进一步地,小网络在每个滑动窗口的位置,我们同时预测多个区域的建议,其中每个位置最大可能的建议数目表示为k,reg层有4k坐标输出来编码K盒,cls层输出2k分数来估计对象是否是物体,K建议根据于K参考框参数,我们称之为锚;锚对于滑动窗口的问题,与规模和纵横比有关。
进一步地,区域建议网络提出了检测区域,R-CNN探测器利用提出的检测区域。
其中交替优化学习共享(三),本专利采用交替训练优化来学习共享特征,首先训练RPN,然后使用快速R-CNN调协来初始化RPN,并重复这个过程,具体步骤为:
1)按照前面的方法训练RPN,采用ImageNet预训练模型进行初始化,针对区域建议任务进行微调;
2)利用第一步产生的建议使用快速R-CNN训练另一个单独的检测网络,这种检测网络也由ImageNet预训练的模型初始化,此时两个网络不共享卷积层;
3)我们使用第二步训练好的检测网络初始化RPN,然后进行训练,固定卷积层,微调RPN部分的网络层,此时两个网络共享卷积层;
4)将共享卷积层固定,微调快速R-CNN的网络层,两个网络共享相同的卷积层,并形成一个统一的网络,类似的交替训练可以运行更多的迭代。
进一步地,RPN训练,分配给每个锚一个二进制类标签,我们将以下两种锚定义为正标签:与标定数据有最高的交叉IoU重叠,或IoU重叠高于0.7;与标定数据交叉IoU重叠小于0.3锚标记为负标签,其余的非正非负的不进行训练;最小化快速R-CNN中的多功能损失的目标函数,图像的损失函数被定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611252957.0/2.html,转载请声明来源钻瓜专利网。