[发明专利]基于空洞卷积和半监督学习的图像深度估计系统与方法在审
申请号: | 201811598902.4 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109741383A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 王伟;刘逸颖;王川功;许琳珊;丁泽;赵雯倩 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 图像深度估计 半监督学习 空洞 测试集 深度图 图像 网络结构模型 解码器 编码器模块 解码器模块 参数模型 测试模型 单幅图像 空间感知 模型估计 平滑误差 三维重建 细节信息 学习策略 训练模型 自动驾驶 半监督 编码器 训练集 场景 输出 预测 优化 改进 网络 | ||
1.一种基于空洞卷积和半监督学习的图像深度估计系统,包括编解码器模块和与之对称连接的解码器模块,编解码器模块输入待估计的图像,解码器模块得到并输出估计出的深度图,其特征在于,编解码器模块和解码器模块之间加入了空洞卷积模块;空洞卷积模块的主体为一个包含4个并行连接的具有不同膨胀率的卷积核的空洞卷积金字塔模型。
2.根据权利要求1所述的一种基于空洞卷积和半监督学习的图像深度估计系统,其特征在于,编解码器模块的输出作为空洞卷积模块的输入,空洞卷积模块的输出作为解码器模块的输入;编解码器模块由4个卷积块构成,每个卷积块包含两个卷积层,解码器模块由4个反卷积层构成,编解码器模块和解码器模块具有对称结构,并进行跳跃连接。
3.一种基于空洞卷积和半监督学习的图像深度估计方法,在权利要求1、2所述的任一基于空洞卷积和半监督学习的图像深度估计系统上实现,其特征在于,具体包括以下步骤:
步骤1:构建基于空洞卷积的深度学习网络模型:在模型中使用空洞卷积,构成一个由编解码器模块、空洞卷积模块和解码器模块共同组成的网络结构;
步骤2:获取训练集和测试集:训练集和测试集由立体图像对和对应的深度图构成,并对训练集数量进行扩充;
步骤3:利用半监督的学习策略训练模型:将训练集的数据输入到深度学习网络模型,根据深度估计误差、图像重建误差和深度图平滑误差所构成的损失函数,调整模型参数,并将训练好的网络权重参数保留为文件,作为训练好的深度学习网络模型;
步骤4:用测试集测试模型精度:将测试集的数据输入训练好的深度学习网络模型,测试图像深度估计的精度;
步骤5:使用模型估计图像深度:加载训练好的网络权重参数,将待预测的图像输入训练好的深度学习网络模型,获得其深度图。
4.如权利要求3所述的一种基于空洞卷积网络和半监督学习的图像深度估计方法,其特征在于,步骤2所述的对训练集数量进行扩充包括对图像进行随机水平翻转、调整图像的亮度、伽马值和颜色值。
5.如权利要求3所述的一种基于空洞卷积和半监督学习的图像深度估计方法,其特征在于,步骤3所述的半监督的学习策略为:
3.1)将真实深度图作为标签,通过减小深度估计误差进行监督学习;
3.2)利用双目立体视觉中的像素点匹配和三角测量原理,将图像深度估计问题转换为图像重建问题,通过减小图像重建误差进行无监督学习。
6.如权利要求5所述的一种基于空洞卷积和半监督学习的图像深度估计方法,其特征在于,步骤3.1)所述的深度估计误差为真实深度值的对数和预测深度值的对数的平均绝对值误差。
7.如权利要求5所述的一种基于空洞卷积和半监督学习的图像深度估计方法,其特征在于,3.2)所述的将图像深度估计问题转换为图像重建问题,具体是:
图像深度估计问题转换为图像重建问题的具体转换方式为:
3.2.1)对于立体图像对的左视图Il,输入网络模型估计其深度图Zpred;
3.2.2)根据三角测量原理,计算左右视图之间的视差图dl,即:
其中,f为获取输入图像所使用的双目立体相机的焦距,b为左右相机中心点之间的距离;
3.2.3)根据立体图像对中的右视图Ir和视差图dl,利用双线性插值重建左视图
其中i,j为图像中像素点的横纵坐标;
(3.2.4)采用均方误差来计算图像重建误差,通过减小图像重建误差,即重建图像与原图像Il的均方误差,来间接提高深度预测的精度。
8.如权利要求3所述的一种基于空洞卷积和半监督学习的图像深度估计方法,其特征在于,步骤3所述的深度图平滑误差Lds为:
式中,Igray为对输入图像进行灰度化并高斯平滑后的灰度图,Zpred为估计得到的深度图,i,j为图像像素点对应横纵坐标,表示对深度图水平方向的求导所得图像,表示对深度图垂直方向的求导所得图像,Sx(Igray)表示利用Sobel算子对Igray横向计算边缘所得图像,Sy(Igray)表示利用Sobel算子对Igray纵向计算边缘所得图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811598902.4/1.html,转载请声明来源钻瓜专利网。