[发明专利]基于金字塔池化模块的单目图像深度估计方法有效
| 申请号: | 201811167195.3 | 申请日: | 2018-10-08 |
| 公开(公告)号: | CN109410261B | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 周武杰;潘婷;顾鹏笠;钱亚冠;楼宋江 | 申请(专利权)人: | 浙江科技学院 |
| 主分类号: | G06T7/50 | 分类号: | G06T7/50;G06N3/04 |
| 代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
| 地址: | 310023 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于金字塔池化模块的单目图像深度估计方法,其在训练阶段,先构建神经网络,其包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;再将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,并通过计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,得到训练好的神经网络模型的最优权值矢量和最优偏置项;在测试阶段,将待预测的单目图像输入到神经网络模型中,并利用最优权值矢量和最优偏置项进行预测,得到预测深度图像;优点是其预测精度高,且计算复杂度低。 | ||
| 搜索关键词: | 基于 金字塔 模块 图像 深度 估计 方法 | ||
【主权项】:
1.一种基于金字塔池化模块的单目图像深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为
其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和
的宽度,H表示{Iq(i,j)}和
的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
表示
中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,P1中的每幅特征图的宽度为W、高度为H;对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,第2个特征提取网络块由依次设置的1个Conv block和3个Identity block组成,第3个特征提取网络块由依次设置的1个Conv block和5个Identity block组成,第4个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,其中,第1个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048;对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为
高度为
符号
为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为
高度为
第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为
高度为
第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为
高度为
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为
高度为
第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过Concatence方式连接U1和P4得到集合U1*,第1个连接层的输出端输出U1*,其中,U1*中的每幅特征图的宽度为
高度为
U1*中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收U1*中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为
高度为
第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过Concatence方式连接U2和P3得到集合U2*,第2个连接层的输出端输出U2*,其中,U2*中的每幅特征图的宽度为
高度为
U2*中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收U2*中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为
高度为
第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过Concatence方式连接U3和P2得到集合U3*,第3个连接层的输出端输出U3*,其中,U3*中的每幅特征图的宽度为
高度为
U3*中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收U3*中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过Concatence方式连接U4和P1得到集合U4*,第4个连接层的输出端输出U4*,其中,U4*中的每幅特征图的宽度为W、高度为H,U4*中包含的特征图的总幅数为K+K;对于单独的第二卷积层,单独的第二卷积层的输入端接收U4*中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,U中的每幅特征图的宽度为W、高度为H;对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍;对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K;对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像;步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为
其中,
表示
中坐标位置为(i,j)的像素点的像素值;步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将
与
之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;所述的测试阶段过程的具体步骤为:步骤2_1:令
表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示
的宽度,H'表示
的高度,
表示
中坐标位置为(i,j)的像素点的像素值;步骤2_2:将
输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到
对应的预测深度图像,记为
其中,
表示
中坐标位置为(i',j')的像素点的像素值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811167195.3/,转载请声明来源钻瓜专利网。
- 上一篇:点云数据网格化方法、装置、计算机设备和存储介质
- 下一篇:耐压罐景深解析系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





