[发明专利]基于多模态无监督图像内容解耦的单目深度估计方法有效
| 申请号: | 202010126070.7 | 申请日: | 2020-02-27 | 
| 公开(公告)号: | CN111445476B | 公开(公告)日: | 2023-05-26 | 
| 发明(设计)人: | 王贺升;胡寒江;赵忠臣 | 申请(专利权)人: | 上海交通大学 | 
| 主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T7/50;G06T7/90;G06T5/50;G06N3/0464;G06N3/088 | 
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 | 
| 地址: | 200240 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 多模态无 监督 图像 内容 深度 估计 方法 | ||
本发明提供了一种基于多模态无监督图像内容解耦的单目深度估计方法,包括:步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;步骤3:根据训练集构建深度估计网络模型并进行训练;步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图。本发明不依赖大量的真实RGB图像对应的深度图,且具有对不同季节、光照环境鲁棒性强的特点。
技术领域
本发明涉及图像识别和人工智能技术领域,具体地,涉及一种基于多模态无监督图像内容解耦的单目深度估计方法。尤其地,涉及一种应用于季节、光照等环境变化下的单目深度估计方法。
背景技术
室外单目深度估计在无人驾驶、移动机器人等领域有着重要的作用。近几年,由于深层卷积网络的推动,基于单目图像的深度估计取得了重大的进展。然而室外场景的真实深度图往往因获取成本过高而难以获取或者质量较低,使得难以直接利用室外单目图像进行有监督的深度估计训练。
目前常用的算法有如下三类:
早期的马尔可夫随机场算法以及其它的概率图模型,十分依赖人工描述符,使得相较于基于学习的算法表现较差。
基于监督训练的深层卷积深度预测器。基于多尺度深度网络的单个图像深度图预测网络,算法首次使用端到端的深层卷积深度估计网络;基于深度卷积神经网络的单目深度估计算法,算法利用神经网络结合连续CRF像素的方法进行深度估计;用于单目深度估计的卷积神经网络可视化算法,使用CNN从像素相关性的角度估计深度图。但这些监督训练存在一个普遍的问题:室外图像真实的深度图往往因获取成本过高而数量较少,使得监督训练成本过高。
以无监督的方式训练深度预测器,并辅以相机自身运动姿态的立体几何信息进行训练。结合几何特征的无监督单目深度估计卷积网络算法,该算法用无监督图像重建方法进行深度估计;左右一致性的无监督单目深度估计算法使用双目图像的左右一致性约束估计深度图;自监督单目深度估计算法使用相机自身运动位姿约束进行深度估计。然而这些方法需要额外辅助立体视觉信息进行训练,同时没有显式解决在不同数据集、不同环境视角变化时的泛化问题。
针对以上单目深度估计存在的难点:室外图像深度图较为稀缺且质量不高、图像存在季节、光照变化等问题。因此除了对深度预测器进行无监督训练外,数量多且质量高的虚拟数据集的深度图能够用来解决真实世界深度图稀缺的问题。从虚拟图像到真实图像的图像迁移存在两个域之间的适应差距问题,当前从虚拟图像到真实图像的深度预测自适应方式是单一模态的,使得跨域图像迁移是确定性的。然而现实中的图像包括多样且连续变化的光照、天气和季节,通常是多模态。基于确定性的图像迁移方法在不同数据集或不同域泛化时会有问题,因为这类方法十分依赖迁移图像的单一特定外观。
为了解决上述难点,我们提出了一种新颖的基于多模态无监督图像迁移框架的内容潜变量解耦的多模态深度预测算法,该算法通过从虚拟图像到真实世界图像的内容编码解耦、图像跨域迁移进行单目深度估计。通过多模态无监督图像迁移,图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码。对于虚拟图像域和真实图像域,内容潜在特征具有域不变性,仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。由于风格潜在特征具有随机性且连续分布,因此内容特征具有多模态不变性且具有较强的泛化能力。
专利文献CN110120071A(申请号:201910401869.X)公开了一种面向光场图像的深度估计方法,包括如下步骤:解码光场图像得到4D光场数据、中心子孔径图像;由4D光场数据生成焦点堆栈图像序列;对中心子孔径图像上的每个像素,绘制聚焦曲线;检测聚焦曲线的局部对称中心,得视差图D1;由4D光场数据生成每个像素对应的水平方向、垂直方向的EPI图像;检测EPI图像上直线的斜率,得到视差图D2;基于中心子孔径图像和两个视差图,对每个像素绘制两种聚焦曲线片段;计算两种聚焦曲线片段与聚焦曲线的匹配度,由匹配度确定最终视差图D;执行基于能量最小化的深度优化。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010126070.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种口腔开口器及其控制方法
 - 下一篇:一种新型太阳能电池的印刷工艺
 
- 彩色图像和单色图像的图像处理
 - 图像编码/图像解码方法以及图像编码/图像解码装置
 - 图像处理装置、图像形成装置、图像读取装置、图像处理方法
 - 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
 - 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
 - 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
 - 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
 - 图像形成设备、图像形成系统和图像形成方法
 - 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
 - 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
 





