[发明专利]基于深度学习的端到端全局和局部运动估计方法在审

专利信息
申请号: 202310029285.0 申请日: 2023-01-09
公开(公告)号: CN116091555A 公开(公告)日: 2023-05-09
发明(设计)人: 毋立芳;郑祎豪;李尊;相叶 申请(专利权)人: 北京工业大学
主分类号: G06T7/269 分类号: G06T7/269;G06V10/77;G06V10/42;G06V10/82;G06N3/0464;G06N3/048;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 端到端 全局 局部 运动 估计 方法
【说明书】:

基于深度学习的端到端全局和局部运动估计方法属于图像处理领域。从原始视频中估计全局和局部运动是很有必要的。现有的全局和局部运动估计方法都不能以端到端的形式同时对视频帧中的两种运动进行估计。本发明提出了一种分别进行全局和局部运动估计的三模块运动估计网络,提出了基于特征维度变换和全局运动基的全局运动估计器,来约束全局运动估计模块关注全局低秩信息,并排除非全局信息的干扰。利用混合重构损失、全局重构损失和局部重构损失三个损失函数对网络进行无监督深度学习。在单应性估计数据集DHE和行为识别数据集NCAA上验证了本发明的有效性。实验结果表明,本发明具有比以往的方法更好的性能。

技术领域

本发明基于深度学习技术,涉及图像处理领域,涉及运动模式提取,具体涉及基于相机运动属性和局部内容动态运动属性的全局和局部运动模式估计方法。

背景技术

视频中的运动信息被用于多种计算机视觉任务,如行为识别、视频稳像、对象分割和目标跟踪。运动信息主要产生于对象和相机的相对运动,据此可以将视频中的运动分为两类:全局运动和局部运动。全局运动由相机运动产生,其可以被表达为参数化的模型,例如单应性矩阵。因此全局运动的自由度是有限的,其运动信息应为低秩的。与全局运动不同。局部运动产生自运动对象,其具有任意的方向和距离。因此局部运动经常是高度非线性和高自由度的。人们对于全局和局部运动的应用有不同的偏好,如视频编辑算法主要专注于全局相机运动,而群体行为识别算法更关注局部内容动态运动。因此,分别获得全局和局部运动对于特定下游应用是很有必要的。

运动估计作为一项重要的计算机视觉研究课题,目前的研究可以分为全局运动估计方法、混合运动估计方法、局部运动估计方法。这类方法存在各自的局限性,其中,全局运动方法无法获得局部运动,往往将其视为噪声。混合运动估计方法存在全局和局部特征空间的相互干扰,无法获得面向任务的真实运动模式。为了将局部运动应用于动作识别,Wu等人在2020年发表文章“Fusing motion patterns and key visual information forsemantic event recognition in basketball videos”设计了一种将局部运动与混合运动分离的方法。该方法采用预先计算的光流作为输入,通过对视频序列中每个图像的混合运动的边缘进行统计分析,获得四个角点处的运动向量,进而采用线性插值算法估计全局运动,并通过减法运算获得局部运动。此外,Wu等人在2021年发表文章“Global MotionEstimation with Iterative Optimization-based Independent Univariate Model forAction Recognition”提出了一种基于时空阈值的局部运动细化方法,该方法首先采用迭代优化算法,将全局运动点向全局运动模型进行拟合,然后通过对非全局运动点的空间域阈值抑制和时间域阈值优化,从预估计的光流中去除噪声,获得最终的局部运动。Yang等人在2021年发表的文章“GLM-Net:Global and Local Motion Estimation via Task-Oriented Encoder-Decoder Structure”通过将预计算的光流馈送到两个编码器-解码器结构中获得了全局运动和局部运动。然而,所有这些方法都不是端到端的,因为它们将预先计算的光流作为网络的输入,其性能受到光流网络本身的限制,在光流计算错误时甚至可能失败。

发明内容

为了有效地解决现有运动估计方法存在的问题,本发明提出了一种基于深度学习的端到端全局和局部运动估计方法。本发明可以任何两个相邻视频帧作为输入,同时估计出帧间的全局运动和局部运动。

针对全局运动自身处于低秩空间的特点,设计了一种基于特征降维和升维思想的全局运动估计器,将混合运动中的全局信息进行提取,并排除非全局信息的干扰。

针对混合运动中包含全局和局部运动这一特点,设计了一种基于条件重构思想的训练策略,采用三个损失函数对网络的输出进行约束,使网络无监督地学习两个相邻视频帧中的混合、全局和局部运动信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310029285.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top