[发明专利]一种基于语义级时序关联建模的视频时序动作定位方法在审
| 申请号: | 202211056608.7 | 申请日: | 2022-08-31 |
| 公开(公告)号: | CN115471771A | 公开(公告)日: | 2022-12-13 |
| 发明(设计)人: | 刘勇;杨煜;王蒙蒙 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/62;G06V10/82;G06N3/04 |
| 代理公司: | 杭州泓呈祥专利代理事务所(普通合伙) 33350 | 代理人: | 张婵婵 |
| 地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 时序 关联 建模 视频 动作 定位 方法 | ||
1.一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,包括以下步骤:
S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;
S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;
S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;
S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;
S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;
S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。
2.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、将原始未经剪辑的长视频视为一个帧集合然后按规则的帧间隔δ将其分割为一个片段集合其中ls=lv/δ;
S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征通过这种方式,获得片段特征序列
S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为的视频特征,包含T个特征单元,由后续模块共享。
3.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询键和值利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,输出全局关联建模的将输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中,最后输出由全局上下文建模的特征
S22、利用全局上下文建模的特征Fg预测动作主体前景掩码和动作边界前景掩码;首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率其次,将概率序列设定阈值进行二值化操作,得到前景掩码序列然后,在时序维度上将前景掩码序列复制T次,得到二维前景掩码图;最后,为了引入前景周围的动作运动趋势信息,在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作,得到膨胀后的前景掩码图
4.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S21具体为:对输入视频特征添加正弦位置编码,得到经过位置编码后视频特征F';利用该特征进行自注意力计算,计算过程具体为:
Q=WQF′,K=WKF′,V=WVF′
其中为网络中可学习权值,d=C/M表示每个注意力头的维度,LN表示层归一化。自注意力机制输出全局关联建模的视频特征然后与特征F'按元素相加,之后送入带有ReLU激活函数的前馈神经网络,增强特征的非线性表达能力,将结果与按元素相加,从而获得全局上下文建模的特征
5.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4,边界掩码二值化阈值设置为0.5,膨胀核的大小设置为kernel=(3,3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056608.7/1.html,转载请声明来源钻瓜专利网。





