[发明专利]一种基于自监督学习的前视场景深度估计方法在审
申请号: | 202110708650.1 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113313732A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 丁萌;尹利董;徐一鸣;李旭;宫淑丽 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06T7/73;G06N3/04;G06N3/08 |
代理公司: | 常州品益专利代理事务所(普通合伙) 32401 | 代理人: | 侯慧娜 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 视场 景深 估计 方法 | ||
1.一种基于自监督学习的前视场景深度估计方法,其特征在于,包括以下步骤:
计算自监督学习重投影公式;
构建深度估计和位姿估计联合训练网络,设计损失函数,对KITTI可见光数据进行预训练得到可见光预训练模型;
将可见光预训练模型迁移至FLIR红外数据集进行训练,实现红外图像的稠密深度估计。
2.根据权利要求1所述的一种基于自监督学习的前视场景深度估计方法,其特征在于,计算自监督学习重投影公式的具体步骤包括:
根据设备参数计算相机的内参矩阵k;
其中,f为相机焦距,dx和dy为相机成像传感器的像元尺寸,u0和v0位图像中心点坐标,H为图像的水平分辨率,W为图像的垂直分辨率,fovh为相机的水平直视场角,fovw为相机的垂直场视角;
将三位点投影到二维平面,计算相机坐标系与世界坐标系的坐标转换;
其中,D从相机角度观察到的三位空间中某点距离相机的水平深度,即像素深度,u和v为该点在相机成像平面的坐标,Puv和Pc分别表示二维像素坐标和三维相机坐标系下的值,k为相机内参矩阵,xw、yw和zw为该点在世界坐标系下的坐标,xc、yc和zc为该点在相机坐标系下的坐标。t为相机坐标系和世界坐标系之间的位移向量,R为相机坐标系和世界坐标系之间的旋转矩阵,T为位姿变换矩阵;
得到自监督学习核心公式;
pt-1~kTt→t-1Dt(pt)k-1pt (4)
其中,pt为某像素在t时刻的坐标,k为相机内参矩阵,D为像素深度,Tt→t-1为t时刻和t-1时刻相机的位姿转换矩阵。
3.根据权利要求1所述的一种基于自监督学习的前视场景深度估计方法,其特征在于,得到可见光预训练模型的具体步骤包括:
根据学习任务构建两个需要联合训练的网络,采用ResNet-18网络结构作为深度估计网络编码器,通过上采样将编码特征恢复为深度图,采用ResNet-18网络结构作为位姿估计网络编码器,使用小型卷积核进行降维,估算两帧之间的相机六自由度运动;
深度估计网络中,编码器依次将提取的每一层特征数量下采样到不同维度,将高维特征通过最大值池化降低尺度,进行下一步特征提取,得到尺寸小于原输入图像尺寸的图像;位姿估计网络中,输入两张叠放一起的图像,使用相同编码器,特征维度提取至2014维;
将深度网络中提取的不同深度图统一上采样,将解码器得到的尺寸小于原输入图像尺寸的图像,统一上采样至原输入图像尺寸;位姿估计网络中利用卷积结合方式进行降维,得到六自由度位姿变换关系;
设计损失函数;
重投影损失:
边缘平滑损失:
总损失函数:L=μLrc+λLs (7)
其中,In表示原图像,表示重投影之后的图像,和为重建的前后帧图像像素值,p-1和p+1为实际的前后帧像素值,N为图像像素总个数,SSIM为原图像与重投影之后图像的结构相似性评估,为深度平滑项,用于抑制深度图生成局部奇异噪声,为边缘感知项,用于鼓励模型学习深度梯度变化较大的边缘处信息,α为重投影损失中SSIM和L1范数损失加权系数,μ和λ为总损失中两个损失的加权系数;
根据最小重投影误差,选取前后帧损失的最小值,在KITTI可见光数据集内作预训练,得到预训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110708650.1/1.html,转载请声明来源钻瓜专利网。