[发明专利]基于空洞卷积和半监督学习的图像深度估计系统与方法在审
申请号: | 201811598902.4 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109741383A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 王伟;刘逸颖;王川功;许琳珊;丁泽;赵雯倩 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 图像深度估计 半监督学习 空洞 测试集 深度图 图像 网络结构模型 解码器 编码器模块 解码器模块 参数模型 测试模型 单幅图像 空间感知 模型估计 平滑误差 三维重建 细节信息 学习策略 训练模型 自动驾驶 半监督 编码器 训练集 场景 输出 预测 优化 改进 网络 | ||
本发明公开了一种基于空洞卷积和半监督学习的图像深度估计系统与方法,解决了从单幅图像中估计场景深度的问题。本发明对现有的编码器‑解码器的网络结构模型进行了改进,在编码器模块和解码器模块之间加入了空洞卷积模块。本发明的图像深度估计方法,具体实现为:获取训练集和测试集;利用半监督的学习策略训练模型;用测试集测试模型精度;使用模型估计图像深度。本发明使用空洞卷积来提高网络的空间感知能力,采用半监督学习策略,并通过深度图平滑误差来优化输出的深度图。本发明具有参数模型小,预测精度高,细节信息完整的特点。用于图像三维重建、自动驾驶等领域。
技术领域
本发明属于计算机视觉技术领域,主要涉及图像的深度估计,具体是一种基于空洞卷积和半监督学习的图像深度估计系统与方法,用于自动驾驶、场景三维建模、图像理解任务,如语义分割、目标跟踪等。
背景技术
图像深度估计是计算机视觉的重要课题之一,它能够有效地帮助计算机理解场景的三维结构关系,从而为更高级的图像处理提供可能。图像的深度估计在计算机视觉领域的各种应用中都有十分重要的作用,例如,机器人导航和汽车无人驾驶需要依靠场景的深度信息对自身进行实时精准的定位以及对周围障碍物判断;在增强现实中,根据场景的深度信息来达到更真实的渲染效果;利用图像的深度信息,计算机可以将复杂的二维图像处理扩展到三维空间中,轻松完成语义分割、目标检测、物体跟踪等任务……
传统的获取深度图像方法都需要特殊的图像采集设备,如激光雷达、TOF相机、双目摄像机等,且对使用场景有较强的约束,因此在现实应用中难以推广。近年来,深度学习在高级的计算机视觉任务上有十分优越的表现。因此,科学家也慢慢开始将目标转向利用深度学习来解决单幅图像的深度估计问题。
浙江工商大学在其申请的专利文献“一种基于多尺度CNN和连续CRF的单目图像深度估计方法”(专利申请号:CN201610510552,公开号CN106157307A),通过结合多尺度CNN和CRF的来优化DCNN网络的输出结果,得到了与原图像大小一致的深度图。但是,训练结果很大程度依赖于训练时深度图标签的完整性与准确性。当训练样本的质量较差时,就无法得到很好的结果,这无形中增加了训练样本的获取难度。
Garg等在2016年发表了文章“Unsupervised CNN for Single View DepthEstimation:Geometry to the Rescue”,提出了一种无监督的单幅图像深度估计模型,通过网络训练获得视差图,利用双目立体图像对的几何关系将图像深度估计转换为一个图像重建问题,因此不需要真实深度图作为训练标签,使得训练数据的获取变得更加简单。但是没有有效的真实深度作为约束,该方法在预测精度上也受到限制。
同时,现有的基于深度学习的图像深度估计方法都忽视了深度估计任务对于空间信息的依赖性。在采用深层卷积网络时,大量的池化操作减少了特征的空间分辨率,这导致了空间信息的丢失,对于输出的结果造成了不可忽视的影响。
发明内容
本发明针对现有技术的不足,提出了一种估计精度高,模型参数小,对训练标签依赖度低的基于空洞卷积和半监督学习的图像深度估计系统与方法。
本发明首先是一种基于空洞卷积和半监督学习的图像深度估计系统,包括解码器模块和与之对称连接的解码器模块,编码器模块输入待估计的图像,解码器模块得到并输出估计出的深度图,其特征在于,解码器模块和解码器模块之间加入了空洞卷积模块;空洞卷积模块的主体为一个包含4个并行连接的具有不同膨胀率的卷积核的空洞卷积金字塔模型。
本发明还是一种基于空洞卷积和半监督学习的图像深度估计方法,在权利要求1、2所述的任一基于空洞卷积和半监督学习的图像深度估计装置上实现,其特征在于,具体包括以下步骤:
步骤1:构建基于空洞卷积的深度学习网络模型:在模型中使用空洞卷积,构成一个由解码器模块、空洞卷积模块和解码器模块组成的网络结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811598902.4/2.html,转载请声明来源钻瓜专利网。