[发明专利]一种基于多阶段聚合Transformer模型的视频语句定位方法有效
申请号: | 202011508292.1 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112488063B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨阳;张明星 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/75;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 55002*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 阶段 聚合 transformer 模型 视频 语句 定位 方法 | ||
1.一种基于多阶段聚合Transformer模型的视频语句定位方法,其特征在于,包括以下步骤:
(1)、视频切片特征、单词特征提取
将视频按照时间均匀地划分为N个时刻点,在每一个时刻点,采集一个视频切片,由连续的多帧图像组成,对每个视频切片进行特征提取,得到总共N个切片特征,N个切片特征按照时刻顺序放置,形成视频特征序列;
对语句的每个单词进行词转向量,得到单词特征,然后按照在语句中的顺序放置,形成语句特征序列;
将视频特征序列中的切片特征、语句特征序列的单词特征映射到相同的维度,得到视频特征序列语句特征序列其中,表示视频第i个切片的切片特征,表示语句第j个单词的单词特征;
(2)、构建视频语句Transformer模型,并对视频特征序列、语句特征序列进行计算
构建一个D层视频语句Transformer模型,其中,第d层,d=1,2,…,D的输出为:
其中,V、L分别表示视频和语句,Q、K、W为可学习参数,其中,不同下标表示不同参数,Att(·)为注意力计算函数;
视频特征序列语句特征序列作为视频语句Transformer模型的输入进行计算,得到第D层输出视频特征序列语句特征序列
(3)、构建多阶段聚合模块,计算三个阶段的阶段特征序列和预测分数序列
计算开始阶段、中间阶段和结束阶段的阶段特征序列rsta、rmid、rend:
其中,开始阶段特征序列rsta由N个切片的阶段特征rista,i=1,2,...N组成,中间阶段特征序列rmid由N个切片的阶段特征rimid,i=1,2,...N组成,结束阶段特征序列rend由N个切片的阶段特征riend,i=1,2,...N组成,MLP1sta、MLP1mid、MLP1end分别为计算三个阶段的阶段特征序列的多层感知器(MLP,Multi-layer Perceptron);
计算开始阶段、中间阶段和结束阶段的预测分数序列psta、pmid、pend:
其中,开始阶段预测分数序列psta由N个切片的预测分数组成,中间阶段预测分数序列pmid由N个切片的预测分数组成,结束阶段预测分数序列pend由N个切片的预测分数组成,分别为计算三个阶段的预测分数序列的多层感知器;
(4)、训练多阶段聚合Transformer模型
视频语句Transformer模型与多阶段聚合模块构成多阶段聚合Transformer模型;
构建视频语句训练数据集,其中每条数据包括一个视频、一个语句,以及语句定位的视频片段的视频切片开始位置结束位置
从视频语句训练数据集提出一条数据,将语句中随机屏蔽一个单词,并用标记“MASK”取代,然后将视频、语句按照步骤(1)~(3)进行处理,再计算每个视频切片开始阶段、中间阶段、结束阶段的真实分数
其中,
σsta、σmidσend为未归一化的二维高斯分布的标准差,σsta、αmid、αend为正值的标量,用于控制标准差的值;
4.1)、计算预测层上的加权交叉熵损失Lstage:
4.2)、计算第z个候选片段的视频切片开始位置、结束位置的预测值以及匹配分数预测值
其中,分别为第z个候选片段的视频切片开始位置、中间位置、结束位置,分别为步骤(3)中得到的阶段特征序列rsta、rmid、rend相应位置的阶段特征;
4.3)、计算边界回归损失Lregress:
其中,Z为候选片段的总数;
4.4)、计算匹配分数加权交叉熵损失Lmatch:
其中,yz为是第z个候选片段与语句定位的视频片段即开始位置到结束位置的视频的重合度;
4.5)、计算屏蔽单词预测的交叉熵损失Lword
Lword=-log pmask
其中,pmask是根据语句特征序列预测为屏蔽的单词的概率;
4.6)、计算训练多阶段聚合Transformer模型的整个网络的损失Ltotal
Ltotal=Lstage+Lregress+Lmatch+Lword
4.7)、更新整个网络的参数
依次从视频语句训练数据集取出一条数据,依据损失Ltotal对整个网络的参数进行更新,直到视频语句训练数据集的数据为空,这样得到训练好的多阶段聚合Transformer模型;
(5)、视频语句定位
输入视频和不含掩蔽单词的完整查询语句,按照步骤(1)~(3)进行处理,再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值,并构成新的候选片段,然后根据匹配分数从高到低对新的候选片段进行排序,再使用非极大值抑制去除重叠超过70%的新的候选片段,并返回前1或前5个新的候选片段作为最终定位出的视频片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011508292.1/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法