[发明专利]一种基于语义级时序关联建模的视频时序动作定位方法在审
申请号: | 202211056608.7 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115471771A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 刘勇;杨煜;王蒙蒙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/62;G06V10/82;G06N3/04 |
代理公司: | 杭州泓呈祥专利代理事务所(普通合伙) 33350 | 代理人: | 张婵婵 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 时序 关联 建模 视频 动作 定位 方法 | ||
本发明涉及计算机视觉领域,公开了一种基于语义级时序关联建模的视频时序动作定位方法,首先,设计了前景掩码生成模块,自适应性地生成前景掩码,前景掩码在后续中用于指引Transformer模块建模与动作帧的语义级关联,掩码引导的Transformer模块利用前景掩码来引导注意力机制学习语义层次的相似性,最后,在一个统一的框架中融合了两个模块,实现一个端到端的时序动作定位深度神经网络。本发明能够充分建模视频帧与动作片段之间的语义级时序关联,捕获动作的特征信息并抑制背景噪声干扰,使得时序动作定位结果具有更好的准确度,能够在复杂的视频中准确地定位动作区间。
技术领域
本发明涉及计算机视觉领域,具体是涉及一种基于语义级时序关联建模的视频时序动作定位方法。
背景技术
视频时序动作定位是计算机视觉领域的基本任务之一,其任务目的是在长视频中定位其中人为动作发生的起始时间、终止时间、及其相应类别。它在现实生活中具有重要的应用价值和意义,例如视频检索、视频推荐等。在深度学习的推动下,智能视频分析领域得以蓬勃发展,本发明主要面向的是基于深度学习的视频时序动作定位任务,基于深度学习算法自动检测视频中人为动作发生的时序区间。对视频进行时序动作定位,实现视频数据的自动化处理,在智能监控、虚拟现实、机器人控制等领域有着广阔的应用前景,对于推动智能视频分析技术的发展具有重大意义。
时序动作定位的关键任务是建模不同时间戳之间的时序关联。根据时序关系建模的尺度,目前的方法可以分为三种类型:局部级别、提议级别和全局级别方法。局部级方法包括基于锚框的回归方法和基于帧级的匹配方法。基于锚框的回归方法是在视频片段上均匀分布预定义的不同尺寸锚框,通过挖掘锚框内视频片段的上下文信息从而回归动作片段。此类方法由于受限于锚框的尺寸,无法生成时序更加灵活的提议片段。基于帧级匹配的方法首先评估视频每帧为动作起始和终止的概率,然后匹配起始——终止帧从而生成动作片段,因此此类方法可以预测更加时序尺度灵活的定位片段。但是局部级方法只挖掘了视频中相邻帧之间的联系,从而使动作边界概率对视频中的噪声场景非常敏感,导致错误的边界划分。提议级方法通过在每个提案中的不同时间戳上采样视频特征,构建提案的特征表示,以捕获更多的时间上下文。他们在提案特征图上利用二维卷积网络,或采用图卷积网络来建模提案之间的关系。全局级别方法采用“查询和检索”过程或利用视觉Transformer对全局时序相关性进行编码。
但是现实场景中,一段包含动作片段的视频通常还带有一些与动作不相关的背景帧,它们通常不能够为视频理解提供有效的信息,甚至会带来干扰。现有方法都不能很好的避免这些背景帧对动作片段定位的影响,无法避免背景帧的干扰。
发明内容
针对上述问题,本发明提出了一种基于语义级时序关联建模的视频时序动作定位方法,本发明从两个角度研究了视频中前景(动作片段)和背景(非动作帧)之间的语义级关联:1)语义内相似性:对于前景片段,从其他动作片段中学习语义内相似度可以提取更多支持性线索。2)语义间相似性:对于背景片段,捕捉它们与前景之间的语义间距离有助于区分它们与动作的相似外观或运动模式,从而抑制假阳性检测和背景的干扰。
为了实现上述目的,本发明提供一种基于语义级时序关联建模的视频时序动作定位方法,包括以下步骤:
S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;
S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;
S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;
S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;
S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056608.7/2.html,转载请声明来源钻瓜专利网。