[发明专利]一种基于多阶段聚合Transformer模型的视频语句定位方法有效

申请号：	202011508292.1	申请日：	2020-12-18
公开（公告）号：	CN112488063B	公开（公告）日：	2022-06-14
发明（设计）人：	杨阳;张明星	申请（专利权）人：	贵州大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/75;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	55002***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于阶段聚合 transformer 模型视频语句定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多阶段聚合Transformer模型的视频语句定位方法，其特征在于，包括以下步骤：

(1)、视频切片特征、单词特征提取

将视频按照时间均匀地划分为N个时刻点，在每一个时刻点，采集一个视频切片，由连续的多帧图像组成，对每个视频切片进行特征提取，得到总共N个切片特征，N个切片特征按照时刻顺序放置，形成视频特征序列；

对语句的每个单词进行词转向量，得到单词特征，然后按照在语句中的顺序放置，形成语句特征序列；

将视频特征序列中的切片特征、语句特征序列的单词特征映射到相同的维度，得到视频特征序列语句特征序列其中，表示视频第i个切片的切片特征，表示语句第j个单词的单词特征；

(2)、构建视频语句Transformer模型，并对视频特征序列、语句特征序列进行计算

构建一个D层视频语句Transformer模型，其中，第d层，d＝1,2,…,D的输出为：

其中，V、L分别表示视频和语句，Q、K、W为可学习参数，其中，不同下标表示不同参数，Att(·)为注意力计算函数；

视频特征序列语句特征序列作为视频语句Transformer模型的输入进行计算，得到第D层输出视频特征序列语句特征序列

(3)、构建多阶段聚合模块，计算三个阶段的阶段特征序列和预测分数序列

计算开始阶段、中间阶段和结束阶段的阶段特征序列r^sta、r^mid、r^end：

其中，开始阶段特征序列r^sta由N个切片的阶段特征r_i^sta，i＝1,2,...N组成，中间阶段特征序列r^mid由N个切片的阶段特征r_i^mid，i＝1,2,...N组成，结束阶段特征序列r^end由N个切片的阶段特征r_i^end，i＝1,2,...N组成，MLP₁^sta、MLP₁^mid、MLP₁^end分别为计算三个阶段的阶段特征序列的多层感知器(MLP，Multi-layer Perceptron)；

计算开始阶段、中间阶段和结束阶段的预测分数序列p^sta、p^mid、p^end：

其中，开始阶段预测分数序列p^sta由N个切片的预测分数组成，中间阶段预测分数序列p^mid由N个切片的预测分数组成，结束阶段预测分数序列p^end由N个切片的预测分数组成，分别为计算三个阶段的预测分数序列的多层感知器；

(4)、训练多阶段聚合Transformer模型

视频语句Transformer模型与多阶段聚合模块构成多阶段聚合Transformer模型；

构建视频语句训练数据集，其中每条数据包括一个视频、一个语句，以及语句定位的视频片段的视频切片开始位置结束位置

从视频语句训练数据集提出一条数据，将语句中随机屏蔽一个单词，并用标记“MASK”取代，然后将视频、语句按照步骤(1)～(3)进行处理，再计算每个视频切片开始阶段、中间阶段、结束阶段的真实分数

其中，

σ_sta、σ_midσ_end为未归一化的二维高斯分布的标准差，σ_sta、α_mid、α_end为正值的标量，用于控制标准差的值；

4.1)、计算预测层上的加权交叉熵损失L_stage：

4.2)、计算第z个候选片段的视频切片开始位置、结束位置的预测值以及匹配分数预测值

其中，分别为第z个候选片段的视频切片开始位置、中间位置、结束位置，分别为步骤(3)中得到的阶段特征序列r^sta、r^mid、r^end相应位置的阶段特征；

4.3)、计算边界回归损失L_regress：

其中，Z为候选片段的总数；

4.4)、计算匹配分数加权交叉熵损失L_match：

其中，y_z为是第z个候选片段与语句定位的视频片段即开始位置到结束位置的视频的重合度；

4.5)、计算屏蔽单词预测的交叉熵损失L_word

L_word＝-log p^mask

其中，p^mask是根据语句特征序列预测为屏蔽的单词的概率；

4.6)、计算训练多阶段聚合Transformer模型的整个网络的损失L_total

L_total＝L_stage+L_regress+L_match+L_word

4.7)、更新整个网络的参数

依次从视频语句训练数据集取出一条数据，依据损失L_total对整个网络的参数进行更新，直到视频语句训练数据集的数据为空，这样得到训练好的多阶段聚合Transformer模型；

(5)、视频语句定位

输入视频和不含掩蔽单词的完整查询语句，按照步骤(1)～(3)进行处理，再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值，并构成新的候选片段，然后根据匹配分数从高到低对新的候选片段进行排序，再使用非极大值抑制去除重叠超过70％的新的候选片段，并返回前1或前5个新的候选片段作为最终定位出的视频片段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州大学，未经贵州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011508292.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多层级表达引导注意力网络的指示表达理解方法
下一篇：一种顶侧喷高温高压调理杀菌锅

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多阶段聚合Transformer模型的视频语句定位方法有效

专利文献下载