[发明专利]一种基于深度学习的视频一致性深度估计方法及装置在审
申请号: | 202210027462.7 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114359363A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 郑友怡 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06T7/579;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 视频 一致性 估计 方法 装置 | ||
1.一种基于深度学习的视频一致性深度估计方法,其特征在于,包括:
利用训练好的单图深度估计网络对视频帧序列的每一张视频帧估计初始深度图,获得初始深度图序列。
将初始深度图序列输入至训练好的一致性深度估计网络,估计获得具有一致性的深度图序列。其中,所述一致性深度估计网络包括卷积长短记忆ConvLSTM层,以初始深度图序列为输入,估计的具有一致性的深度图序列为输出,利用数据集通过最小化总损失函数训练获得。所述数据集包括多个样本,每个样本包括视频帧序列{Ij}、初始深度图序列关键帧对集合S、半稠密深度图序列T表示视频帧序列的帧数。每个样本通过如下方法获取:
采集视频帧序列{Ij};
利用训练好的单图深度估计网络对视频帧序列{Ij}的每一张视频帧估计初始深度图,获得初始深度图序列
分割去除视频帧序列{Ij}的每一张视频帧中出现的运动对象,获得不包含运动对象的视频帧序列。
对视频帧序列{Ij}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S。
使用COLMAP对不包含运动对象的视频帧序列中每一张视频帧估计获得相机位姿参数和半稠密深度图并基于三维空间世界坐标系与相机坐标系的几何投影关系,通过调整相机位姿参数使所述半稠密深度图与对应的初始深度图尺度匹配。
所述总损失函数Lall为:
Lall=λdLd+λstLst+λltLlt
其中,Lst为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{Oj}中相邻帧之间的深度一致性损失。
Llt为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{Oj}中,归属于关键帧对集合S的关键帧对之间的深度一致性损失。
Ld为数据集的每个样本对应的一致性深度估计网络输出的深度图序列{Oj}中,深度图Oj与其对应的半稠密深度图之间的深度一致性损失。
λd,λst,λlt为对应的Ld、Lst、Llt损失的权重。
2.根据权利要求1所述的方法,其特征在于,所述单图深度估计网络的训练方法如下:
利用MannequinChallenge数据集的单一图像作为输入,估计的深度图作为输出,最小化估计的深度图与真值的损失进行监督训练。所述真值通过MVS方法估计获得。
3.根据权利要求1所述的方法,其特征在于,所述一致性深度估计网络具体包括两个卷积层,残差模块,一个卷积长短记忆ConvLSTM层和两个转置卷积层。
4.根据权利要求1所述的方法,其特征在于,对视频帧序列{Ij}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S,具体为:
对视频帧序列{Ij}组成的帧对进行分层采样获得帧对集合,其中每层采样的帧对的帧对距离为2L,L表示分层采样的层数。
对帧对集合中的每个帧对,计算光流信息进行对齐后,对其中一帧做仿射变换,计算仿射变换后的图与帧对中另一帧图的像素值差距;根据每个帧对计算获得的像素值差距滤除其中内容重叠小的帧对获得对应的关键帧对集合S,其中,所述像素值差距越大,帧对内容重叠越小。
5.根据权利要求1所述的方法,其特征在于,还包括对半稠密深度图的修正步骤:
滤除半稠密深度图中的离群深度值。
和/或滤除半稠密深度图中的错误深度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210027462.7/1.html,转载请声明来源钻瓜专利网。