[发明专利]一种基于多交叉注意力的视频与字幕片段检索方法在审
| 申请号: | 202210054069.7 | 申请日: | 2022-01-18 | 
| 公开(公告)号: | CN114429119A | 公开(公告)日: | 2022-05-03 | 
| 发明(设计)人: | 王洪星;傅豪;荆铭;冯超;张小洪 | 申请(专利权)人: | 重庆大学 | 
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06V20/62 | 
| 代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 | 
| 地址: | 400044 *** | 国省代码: | 重庆;50 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 交叉 注意力 视频 字幕 片段 检索 方法 | ||
1.一种基于多交叉注意力的视频与字幕片段检索方法,其特征在于,包括如下步骤:
S1:对视频片段和其对应字幕检索进行如下定义;
定义q={w1,w2,...,wm}为一个查询语句,m表示查询语句q中的单词总数;
给定视频V,将视频拆分为n个不相交的片段{c1,c2,...,cn},每个片段有与该片段对应的字幕信息;
最终检索到的片段即可以被表示为{cst,cst+,...,ced},其中cst,ced分别表示检索的开始片段和结束片段;
S2:提取V中n个片段的外观特征和动作特征,并将每个片段的外观特征和动作特征整合得到V的特征矩阵Ev;
S3:提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es;
S4:计算Eq与Ev,Eq与Es之间的关联关系,得到第一种查询语句特征序列给定视频特征序列给定视频所对应的字幕特征序列和第二种查询语句特征序列
S5:对S4所得的单词级别的和分别对应的转化为句子级别特征向量q(v)和q(s);
S6:计算最终每个片段与查询语句之间的匹配度,得到每个视频片段是最终检索结果的首个片段和末尾片段的概率;
S7:以深度学习的方式来训练S2-S6中的模型,使所述S2-S6中的模型均为最优模型;
S8:对于新视频数据,依次执行步骤S2-S6,得到概率Pst和Ped,根据Pst和Ped中概率值的大小排序,找出Pst和Ped的值均大的N个片段作为查找的片段。
2.如权利要求1所述的基于多交叉注意力的视频与字幕片段检索方法,其特征在于:所述S2中得到V的特征矩阵Ev的过程如下:
使用预训练的ResNet-152模型来提取V每帧的外观特征,使用预训练的I3D模型来提取V的动作特征,然后将n个片段的外观特征和动作特征进行整合,整合后得到V的特征矩阵Ev,
3.如权利要求1或2所述的基于多交叉注意力的视频与字幕片段检索方法,其特征在于:所述S3提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es的步骤如下:
S31:在现有数据集上对RoBERTa模型进行训练,得到预训练的RoBERTa模型;
S32:使用S31获得的预训练的RoBERTa模型提取查询语句每个单词的特征向量,将所有单词的特征向量整合,即得到整个查询语句的特征矩阵Eq,其中m为查询语句中的单词总数,d为特征矩阵的维度;
使用S31获得的预训练的RoBERTa模型提取每个片段对应的字幕的特征向量,对一个片段内的所有字幕的特征向量取平均值得到该片段所对应字幕的特征矩阵,将所有片段所对应字幕的特征矩阵整合,即得到V所以对应字幕的特征矩阵Es,其中n为给定视频中片段的总数,d为特征矩阵的维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210054069.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于5G移动通信的PICU数字化病房系统
 - 下一篇:显示装置及电子设备
 





