[发明专利]基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统在审
申请号: | 202110865927.1 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113642430A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 李祎承;冯锋;蔡英凤;王海;蒋卓一;朱镇;杨东晓 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 vgg netvlad 地下 停车场 高精度 视觉 定位 方法 系统 | ||
1.基于VGG+NetVLAD的地下停车场高精度视觉定位方法,其特征在于,包括:
S1、数据采集:采集目标停车场内的安全出口标志图像,记录所需数据信息,并进行数据的预处理;
S2、建立网络模型与训练:所述网络模型把控两种深度神经网络模型,分别是标志检测模型和全局特征提取模型;
S3、制作地图:运用训练好的网络模型,制作地图;
S4、定位实现:输入目标停车场内的安全出口标志图像,从标志地图快速匹配最近的图像,利用平面单应性解算相机与标志间的位姿,实现实时定位。
2.根据权利要求1所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法,其特征在于,所述S1的实现包括:
拍摄停车场内标志,采集的标志尽可能覆盖停车场,图像内容包括一定场景特征,标志在图像中完整,每个标志采集若干张图像,包括不同光照情况、不同拍摄距离、不同拍摄角度下的图像;
拍摄时记录下每个标志所对应的数据信息包括:标志所在位置信息;标志的颜色、形状及几何尺寸;若标志为矩形,几何尺寸记录为标志的宽度w和高度h,同时记录下每张图片拍摄时摄像机与标志间的相对位置信息;
对采集的图像进行过滤筛选,并进行分类,得到原始数据集;利用LabelImg软件对原始数据集进行人工分类标注,标志检测框标注在标志轮廓线以外,并适当扩大,保证标志全部包围在内,预处理完成得到原始数据集。
3.根据权利要求1所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法,其特征在于,所述S2的标志检测模型采用预训练的YOLOv3模型,用标注过检测框的图像进行训练,当损失函数值Loss20,保存模型;建立的网络模型的输入为416×416×3的图像,输出为检测到的标志种类,及标志检测框的四个图像坐标。
4.根据权利要求1所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法,其特征在于,所述S2的全局特征提取模型:采用VGG19为基础模型,包括为5个模块,16个卷积层组成;模块1包含2个卷积层,1个池化层;模块2包含2个卷积层,1个池化层;模块3包含4个卷积层,一个池化层;模块4包含4个卷积层,1个池化层;模块5包含4个卷积层,1个NetVLAD层;最后连接全连接层,softmax函数进行分类;
模型输入为224×224×3的图像,进入第1个卷积层,卷积核尺寸为3×3,步长为1,个数为64,得到224×224×64的特征图输出;进入第2个卷积层,卷积核尺寸为3×3,步长为1,个数为64,得到224×224×64的特征图输出;进入第1个池化层,池化过滤器尺寸为2×2,步长为2,得到112×112×64的特征图输出;进入第3个卷积层,卷积核尺寸为3×3,步长为1,个数为128,得到112×112×128的特征图输出;进入第4个卷积层,卷积核尺寸为3×3,步长为1,个数为128,得到112×112×128的特征图输出;进入第2个池化层,池化过滤器尺寸为2×2,步长为2,得到56×56×128的特征图输出;进入第5个卷积层,卷积核尺寸为3×3,步长为1,个数为256,得到56×56×256的特征图输出;进入第6个卷积层,卷积核尺寸为3×3,步长为1,个数为256,得到56×56×256的特征图输出;进入第7个卷积层,卷积核尺寸为3×3,步长为1,个数为256,得到56×56×256的特征图输出;进入第8个卷积层,卷积核尺寸为3×3,步长为1,个数为256,得到56×56×256的特征图输出;进入第3个池化层,池化过滤器尺寸为2×2,步长为2,得到28×28×256的特征图输出;进入第9个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到28×28×512的特征图输出;进入第10个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到28×28×512的特征图输出;进入第11个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到28×28×512的特征图输出;进入第12个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到28×28×512的特征图输出;进入第4个池化层,池化过滤器尺寸为2×2,步长为2,得到14×14×512的特征图输出;进入第13个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到14×14×512的特征图输出;进入第14个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到14×14×512的特征图输出;进入第15个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到14×14×512的特征图输出;进入第16个卷积层,卷积核尺寸为3×3,步长为1,个数为512,得到14×14×512的特征图输出;进入NetVLAD层,聚类数64,得到输出大小1024;进入全连接层,全连接层输出大小N,设计为标志的数量;
将每个标志作为一个分类,同一标志的所有图像作为该类正样本进行训练;为缩减训练时间,用‘Imagenet’作为预训练权重参数,训练时冻结前4个模块,只训练模块5及之后的NetVLAD层和全连接层,训练至模型收敛;最后截去全连接层,取用CNN层+NetVLAD层作为特征提取器用来提取视觉向量,该视觉向量大小为1024。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110865927.1/1.html,转载请声明来源钻瓜专利网。