[发明专利]可转换模式的基于R-CNN的用于监视的方法和装置有效
| 申请号: | 201911055354.5 | 申请日: | 2019-10-31 |
| 公开(公告)号: | CN111488871B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 金桂贤;金镕重;金寅洙;金鹤京;南云铉;夫硕焄;成明哲;吕东勋;柳宇宙;张泰雄;郑景中;诸泓模;赵浩辰 | 申请(专利权)人: | 斯特拉德视觉公司 |
| 主分类号: | G06V10/25 | 分类号: | G06V10/25;G06V10/774;G06V10/82;G06N3/082;G06N3/0464;G06N3/084 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 金美莲 |
| 地址: | 韩国庆*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 转换 模式 基于 cnn 用于 监视 方法 装置 | ||
本发明提供可转换模式的基于R‑CNN的用于监视的方法和装置。提供一种基于R‑CNN(Region‑based Convolutional Neural Network)的对象检测器(Object Detector)的学习方法,包括信号灯等的对象的纵横比和尺度可以根据例如距对象检测器的距离、对象的形状等特性来确定,学习方法的特征在于,包括如下步骤:学习装置使区域建议网络生成候选感兴趣区域的步骤;使池化层输出特征向量的步骤;以及通过反向传播学习FC层和卷积层的步骤,在本方法中,池化处理可以利用由雷达、激光雷达(Lidar)或其他传感器获得的距离信息和对象信息并按照对象的实际比例和实际尺寸来执行,学习方法和测试方法在特定位置的同一视图中具有相似的大小,因此可以用于监视。
技术领域
本发明涉及一种学习基于R-CNN(Region-based Convolutional NeuralNetwork;基于区域的卷积神经网络)的对象检测器(Object Detector)的方法和测试方法、以及利用其的学习装置和测试装置,更加具体来说,在学习基于R-CNN的对象检测器的方法中,包括以下步骤:(a)学习装置使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(Region Proposal Network;RPN)(i)在所述特征映射上利用多个锚框生成与在所述训练图像中估计存在至少一个对象的候选区域对应的候选感兴趣区域(Region of Interest;ROI),所述多个锚框由规模和纵横比(Aspect Ratio)中的至少一部分来区分;(ii)将判断为所述对象存在的概率高的特定候选感兴趣区域作为感兴趣区域建议来输出;(b)所述学习装置(i)将所述感兴趣区域建议输入到与各池化尺寸相对应的各池化层,所述各池化尺寸与用于生成所述感兴趣区域建议的各特定锚框相对应地设定;(ii)使所述各池化层根据与其对应的池化尺寸在所述特征映射上池化与所述感兴趣区域建议对应的区域,输出与其对应的特征向量;(iii)使与所述各池化层对应的各全连接层利用所述各特征向量来输出与所述各感兴趣区域建议对应的各对象类别信息和各对象回归信息;以及(c)所述学习装置使与所述各全连接层对应的各对象损失层参考所述各对象类别信息和所述各对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,从而通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层。
背景技术
在机器学习中,CNN或ConvNet(Convolutional Neural Network;卷积神经网络)是一类已成功应用于视觉图像分析中的深度前馈人工神经网络(Deep、Feed-ForwardArtificial Neural Network)。
图1简要示出利用以往的利用R-CNN的对象检测器的测试方法。
首先,如图1所示的测试装置获取RGB图像101,并将其输入到卷积块所包含的至少一个卷积层102、即卷积滤波器中。随着通过卷积层,RGB图像的宽度和高度变小,但通道数量增加。
接下来,测试装置使特征映射103通过已学习的区域建议网络(Region ProposalNetwork)104,以生成感兴趣区域105,并且使池化层106对在特征映射上与感兴趣区域105对应的区域执行最大池化(Max Pooling)运算或平均池化(Average Pooling)运算之一,调整包含在所述区域中的像素数据的大小,并且参考所述调整大小后的特征映射来输出特征向量。
接下来,测试装置可以将特征向量输入到已学习的FC(Fully Connected;全连接)层108,通过分类(Classification)等操作来确定被输入的RGB图像上的对象的种类,并且利用全连接层在被输入的RGB图像上生成边界框。
根据利用这种以往的利用R-CNN检测对象的方法,利用锚框获得感兴趣区域建议。在这里,由于对象的大小和形状各不相同,因此为了更好地找到它们,锚框具有各种尺度(Scale)和纵横比(Aspect Ratio)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯特拉德视觉公司,未经斯特拉德视觉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911055354.5/2.html,转载请声明来源钻瓜专利网。





