[发明专利]一种时序动作检测方法、装置、存储介质及终端在审
申请号: | 202111574171.1 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114429641A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 刘斌;张睿;张先福;蒙学文 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V40/20;G06V10/44;G06V10/766;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 李小朋 |
地址: | 101100 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时序 动作 检测 方法 装置 存储 介质 终端 | ||
本发明公开了一种时序动作检测方法、装置、存储介质及终端,方法包括:获取动作视频;将动作视频输入到预先训练的动作检测网络中;其中,预先训练的动作检测网络是基于多个局部‑全局融合特征训练生成的,多个局部‑全局融合特征是根据局部自注意力模块和全局自注意力模块构建的;输出动作视频中的时序动作信息。本申请采用了自注意力模块,不仅能保留卷积层在视频中提取的长时序特征的信息,也能在长时序特征上捕获全局特征,从而减少了信息缺失,同时通过局部自注意力模块和全局自注意力模块构建多个局部‑全局融合特征,能对时序视频的上下文信息融合并利用,使得基于多个局部‑全局融合特征训练网络过程中GPU的利用率和计算效率大大提升。
技术领域
本发明涉及计算机技术领域,特别涉及一种时序动作检测方法、装置、存储介质及终端。
背景技术
随着在线和个人媒体档案的大量增加,人们正在生成、存储和消费大量视频。在这种趋势下,鼓励开发高效的算法以智能地解析视频数据。这些改进成功的基础挑战之一是时间方面和空间方面的视频中的动作检测,即,时序动作检测。目前主流的时序动作检测网络主要由CNN网络层和全连接层组成,其中CNN网络层主要负责特征提取,全连接层主要负责行为分类。一般情况下,CNN网络层和全连接层的输入形状大小和输出形状大小在模型定义阶段已被固定,因此也固定了输入源数据的形状大小。若输入源数据的形状大小发生了变化,动作检测网络会无法处理数据。
在现有技术中,为了解决若输入源数据的形状大小发生了变化,动作检测网络会无法处理数据的问题,目前主流算法需要先将时序特征进行下采样,统一到动作检测网络所支持的时序长度,但下采样操作会带来信息损失的问题。除此之外,CNN具有局部性和空间归纳偏置,即CNN可将空间上相邻的特征进行联系,因此在局部空间上有强关联的数据(如图像)有较好的表现,但其无法建立远距离特征间的联系,因此在序列问题上性能较弱。
与此同时,目前主流的多阶段时序动作检测网络的训练方式通常分成两个阶段独立训练:一个阶段训练提名网络,另一阶段训练检测网络,导致训练时间过长,而且检测结果受到两个阶段的误差累积。其原因是时序动作检测和传统2D图像目标检测不同:对于传统2D图像目标检测,其空域特征图(即2Dfeature map)上每个位置所生成的锚框是使用同一大小的感受域(因为是在同一层特征图上),不存在感受域不同的情况,因此也很少出现锚框和感受域不可对齐的问题;相反,时间动作检测的一个挑战是动作实例的极端尺度(持续时间)变化,从几秒到几分钟不等。尽管自注意力模块可以关注不同范围内的特征,但极端尺度(持续时间)变化致使网络模型大几率出现感受域范围与相应行为时间边界范围无法对齐的问题,即模型感知范围内的内容和时间边界范围内的内容有偏差。为了减少偏差,目前主流的多阶段时序动作检测网络先通过提名网络把高置信度的行为时间边界(起始时间点和结束时间点,通常单位是秒)选出,然后再根据选出的行为时间边界,在视频层面截取出边界范围内的内容,再输入至检测网络做边界细化和行为分类,但这种方法需要大量的内存访问,显存和内存的数据交换,甚至硬盘读写,导致GPU利用率下降,计算效率不高。
发明内容
本申请实施例提供了一种时序动作检测方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种时序动作检测方法,方法包括:
获取动作视频;
将动作视频输入到预先训练的动作检测网络中;其中,预先训练的动作检测网络是基于多个局部-全局融合特征训练生成的,多个局部-全局融合特征是根据局部自注意力模块和全局自注意力模块构建的;
输出动作视频中的时序动作信息。
可选的,按照以下步骤生成预先训练的动作检测网络,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111574171.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遥感视差图的快速、鲁棒生成方法
- 下一篇:一种具有循环冷却机构的压铸模具