[发明专利]一种基于深度学习的视频一致性深度估计方法及装置在审
申请号: | 202210027462.7 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114359363A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 郑友怡 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06T7/579;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 视频 一致性 估计 方法 装置 | ||
本发明公开了一种基于深度学习的视频一致性深度估计方法及装置,该方法结合使用目前表现最佳的MVS(COLMAP)估计得到的半稠密深度图,利用现有的单目图像深度估计网络,得到输入视频关键帧的合理但不一致的深度结果,最后本方法引入长短记忆网络ConvLSTM,利用光流估计网络得到帧之间的对应关系建立深度估计约束,最终得到具有一致性的深度估计结果。本发明适用于手持拍摄设备(如手机等)随意拍摄的视频作为输入,允许包含适度运动的人或物,具有更高的普适性;本发明能够处理视频输入得到具有一致性的深度结果,并且在一定程度上相对已有的方法有更好的效果和更快的计算速度。
技术领域
本发明属于计算机视觉,人工智能领域,尤其涉及一种基于深度学习的视频一致性深度估计方法。
背景技术
基于单目视频的深度估计是计算机视觉领域中的一个重要研究课题,在机器人技术、场景重建、三维目标检测,以及无人自动驾驶等各方面都有着极为广泛的应用。如今广泛使用的视频深度估计算法主要为传统估计算法和基于学习的深度估计算法,以往的深度估计工作都存在着一定程度的不足。大多数传统的深度估计方法都依赖于对场景进行空间或者时间观测的假设(如立体或多视角、运动结构),而且主要集中在多视角几何上。传统方法一般在计算复杂度等方面有着较高的要求且往往深度估计精确但不完整,而新兴的基于学习的深度估计方法能够从数据中学习场景先验,使得其在传统方法表现较弱或者不正确的场景部分给出相对可信的深度估计,但其训练往往需要大量的数据进行支持,且对时间尺度相距较远的帧深度估计不佳,空间尺度一致程度不足,极大的影响了基于深度信息的视觉应用的实际表现。
发明内容
本发明的目的是针对现有技术不足,基于深度学习提出一种提高视频一致性深度估计的方法。
本发明采用的技术方案具体如下:
一种基于深度学习的视频一致性深度估计方法,包括:
利用训练好的单图深度估计网络对视频帧序列的每一张视频帧估计初始深度图,获得初始深度图序列。
将初始深度图序列输入至训练好的一致性深度估计网络,估计获得具有一致性的深度图序列。
其中,所述一致性深度估计网络包括卷积长短记忆ConvLSTM层,以初始深度图序列为输入,估计的具有一致性的深度图序列为输出,利用数据集通过最小化总损失函数训练获得。所述数据集包括多个样本,每个样本包括视频帧序列{Ij}、初始深度图序列关键帧对集合S、半稠密深度图序列j=1,2,...,T,T表示视频帧序列的帧数。每个样本通过如下方法获取:
采集视频帧序列{Ij};
利用训练好的单图深度估计网络对视频帧序列{Ij}的每一张视频帧估计初始深度图,获得初始深度图序列
分割去除视频帧序列{Ij}的每一张视频帧中出现的运动对象,获得不包含运动对象的视频帧序列。
对视频帧序列{Ij}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S。
使用COLMAP对不包含运动对象的视频帧序列中每一张视频帧估计获得相机位姿参数和半稠密深度图并基于三维空间世界坐标系与相机坐标系的几何投影关系,通过调整相机位姿参数使所述半稠密深度图与对应的初始深度图尺度匹配。
所述总损失函数Lall为:
Lall=λdLd+λstLst+λltLlt
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210027462.7/2.html,转载请声明来源钻瓜专利网。