[发明专利]基于卷积神经网络与VLAD的视觉SLAM闭环检测方法在审
| 申请号: | 201910996478.7 | 申请日: | 2019-10-19 |
| 公开(公告)号: | CN110781790A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 阮晓钢;李昂;黄静;朱晓庆;刘少达;武悦;任顶奇 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 11203 北京思海天达知识产权代理有限公司 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 闭环检测 查询图像 图像 准确率 构建 闭环 卷积神经网络 图像间相似性 训练网络模型 大型数据集 实时性要求 相似性矩阵 传统人工 大小判断 环境变化 局部空间 两幅图像 特征表达 网络模型 余弦距离 重要意义 输出 三元组 有效地 池化 裁剪 衡量 全局 统计 网络 | ||
1.一种基于卷积神经网络与VLAD的视觉SLAM闭环检测方法,其特征在于,包括以下步骤:
第一步、构建融合VGG16和VLAD的网络模型VGG-NetVLAD:对VGG16进行剪裁,然后在最后一层加入池化层NetVLAD;
第二步、利用大型数据集训练网络模型得到最优参数;
第三步、将待查询图像和待匹配图像进行预处理,然后输入到网络中,提取NetVLAD层输出的特征作为图像的表达;
第四步、对第三步得到的特征向量,采用余弦距离作为衡量两幅图像相似性的标准,计算相似度得分;
第五步、重复第三步、第四步,计算所有图像间的相似度,构建最终的相似性矩阵;
第六步、通过设定阈值判断相似性矩阵中何处产生了闭环,并输出闭环检测的准确率召回率曲线。
2.根据权利要求1所述的基于卷积神经网络与VLAD的视觉SLAM闭环检测方法,其特征在于,第一步中:
对VGG16网络进行了裁剪,去掉了最后一个卷积层conv5_3之后的池化层和全连接层,包括RELU激活函数,并将NetVLAD层连接到卷积层conv5_3之后,作为新的池化层;NetVLAD层将VLAD的思想引入到了卷积神经网络中;VLAD是一种常用于实例检索和图像分类的描述方法,可以捕获局部特征在图像中聚合的统计信息,储存了每个单词与其对应聚类中心的残差和;若VLAD的输入为单幅图像的N个D维特征向量{xi},参数为K个聚类中心Ck,则输出为一个K×D维的特征向量,将其写成矩阵的形式,记做V,计算公式如下:
其中xi(j)和Ck(j)分别代表第i个特征向量和第k个聚类中心的第j个元素,ak(xi)表示第i个特征向量对应第k个聚类中心的权重,当该特征属于这个聚类中心时,权重为1,否则为0;由于VLAD是一个离散函数,无法通过反向传播,所以NetVLAD层采用了一种近似的方式,将ak(xi)软分配到多个聚类中心,使其可微:
其中wk'=2αck,bk=-α||ck||2,α是一个正常数,控制响应随距离大小的衰减;最终NetVLAD层输出的特征向量为:
3.根据权利要求1所述的基于卷积神经网络与VLAD的视觉SLAM闭环检测方法,其特征在于,第二步中:
采用地点识别数据集训练构建的网络模型,获得最优参数;数据集中图片为为全景图,每个全景图由一组不同方向的透视图组成,每个透视图只有代表其在地图上大致位置的GPS标签,属于弱监督信息,导致两个地理位置很近的查询图像不一定描述了相同的场景,因为它们可能处于不同的拍摄方向;训练目标为:给定一个查询图像q,要在数据集所有图像Ii中找到与q位置距离最近的图像Ii*;数据集根据GPS信息将与其距离相近(10米以内)的图像作为正样本集合距离很远(超过25米)的图像作为负样本集合构建一个新的三元组数据集在三元组中,正样本中至少包含一幅能与查询图像匹配的图像;训练每一个三元组时,要学习一种最优的图像表示方法fθ使得查询图像q与最佳匹配图像的距离小于查询图像q与任何一个负样本图像的距离:
针对上述弱监督训练的问题,采用了排序损失函数:
其中l为hinge loss函数:l(x)=max(x,0),m为附加常数;Lθ代表所有负样本图像的损失之和,对于每一个负样本图像,当其与查询图像的距离大于查询与最佳匹配图像的距离与m之和,则损失为0,否则其损失值与m成正比;通过采用随机梯度下降法对参数进行优化,使网络可提取最优的图像表达。
4.根据权利要求1所述的基于卷积神经网络与VLAD的视觉SLAM闭环检测方法,其特征在于,第三步中:
先将图片大小调整为224*224像素,并减去RGB通道的均值数据;然后将图片输入到已在数据集上训练好的网络模型中,提取NetVLAD层的输出作为图像的特征表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910996478.7/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





