[发明专利]多粒度级联交互网络的跨模态时序行为定位方法及装置有效
| 申请号: | 202210052687.8 | 申请日: | 2022-01-18 |
| 公开(公告)号: | CN114064967B | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 王聪;鲍虎军;宋明黎 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06F16/735 | 分类号: | G06F16/735;G06F16/78;G06F16/783;G06N3/04;G06N3/08;H04N19/149;H04N19/21 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉;杨小凡 |
| 地址: | 310023 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 粒度 级联 交互 网络 跨模态 时序 行为 定位 方法 装置 | ||
1.一种多粒度级联交互网络的跨模态时序行为定位方法,其特征在于包括以下步骤:
步骤S1:给定未修剪的视频样本,利用视觉预训练模型进行视频表征的初步提取,并采用局部-全局的方式,对初步提取后的视频表征进行上下文感知的时序依赖编码,得到最终的视频表征;基于视觉预训练模型,以离线方式提取视频帧特征并均匀地采样T帧,然后经过线性变换层,获取一组视频表征,为视频第i帧的表征,进而对视频表征采用局部-全局的方式,进行上下文感知的时序依赖编码;局部-全局上下文感知编码方式,首先对视频表征进行局部上下文感知编码,得到视频表征;然后对视频表征进行全局上下文感知编码,得到视频表征;局部上下文感知编码和全局上下文感知编码,分别以如下方式进行实施:
步骤S1.1,局部上下文感知编码采用一组配备一维偏移窗口的连续局部变压器块,将视频表征作为初始表征,输入第一块一维偏移窗口的连续局部变压器块,将得到的结果输入第二块一维偏移窗口的连续局部变压器块,以此类推,将最后一块一维偏移窗口的连续局部变压器块的输出,作为局部上下文感知编码输出的视频表征;一维偏移窗口的连续局部变压器块内部操作如下:
对获取的视频表征进行层标准化后,通过一维窗口多头自注意力模块,将得到的结果与视频表征相加,得到视频表征;对视频表征进行层标准化后,通过多层感知器,将得到的结果与视频表征相加,得到视频表征;对视频表征进行层标准化后,通过一维偏移窗口多头自注意力模块,将得到的结果与视频表征相加,得到视频表征;对视频表征进行层标准化后,通过多层感知器,将得到的结果与视频表征相加,输出视频表征作为一维偏移窗口的连续局部变压器块的输出,表示第块配备一维偏移窗口的连续局部变压器块;
步骤S1.2,全局上下文感知编码包括一组常规变压器块,将视频表征做出初始表征输入第一块常规变压器块,将得到的结果输入第二块常规变压器块,以此类推,将最后一块常规变压器块的输出,作为全局上下文感知编码输出视频表征;常规变压器块内部操作如下:
获取的视频表征,通过常规多头自注意力模块后,将得到的结果与视频表征相加后,再进行层标准化,得到视频表征;视频表征通过多层感知器后,将得到的结果与视频表征相加后,再进行层标准化,得到的视频表征作为常规变压器块的输出,表示第块常规变压器块;
步骤S2:对于未修剪视频相应的文本查询,采用预训练的词嵌入模型,对查询文本中各个单词进行词嵌入初始化,然后采用多层双向长短时记忆网络,进行上下文编码,得到文本查询的单词级表征和全局级表征;
步骤S3:对于已提取的视频表征和文本查询表征,采用多粒度级联交互网络进行视频模态和文本查询模态间的交互,得到查询引导的增强化视频表征;
步骤S4:对于经过多粒度级联交互后得到的增强化视频表征,采用基于注意力的时序位置回归模块,预测文本查询相应的目标视频片段时序位置;
步骤S5:对于步骤S1~S4所组成的基于多粒度级联交互网络的跨模态时序行为定位模型,利用训练样本集进行该模型的训练,训练时所采用的总损失函数包括注意力对齐损失和边界损失,其中,边界损失包括平滑 损失和时序广义交并比损失。
2.根据权利要求1所述的多粒度级联交互网络的跨模态时序行为定位方法,其特征在于所述步骤S2中,查询文本中每个单词对应的可学习词嵌入向量,使用预训练的词嵌入模型进行初始化,得到文本查询的嵌入向量序列,为视频第i个单词的表征,通过多层的双向长短时记忆网络,对文本查询的嵌入向量序列进行上下文编码,得到查询的单词级文本查询表征,通过的前向隐状态向量和的后向隐状态向量的拼接,得到全局级文本查询表征,最终得到文本查询表征。
3.根据权利要求1所述的多粒度级联交互网络的跨模态时序行为定位方法,其特征在于所述步骤S3中的多粒度级联交互网络,首先将视频表征和文本查询表征,通过视频引导的查询解码,得到视频引导的查询表征,表示全局级视频引导的查询表征,表示单词级视频引导的查询表征,然后将视频引导的查询表征与视频模态表征,通过级联跨模态融合,得到最终的增强化视频表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210052687.8/1.html,转载请声明来源钻瓜专利网。





