[发明专利]一种基于多交叉注意力的视频与字幕片段检索方法在审

申请号：	202210054069.7	申请日：	2022-01-18
公开（公告）号：	CN114429119A	公开（公告）日：	2022-05-03
发明（设计）人：	王洪星;傅豪;荆铭;冯超;张小洪	申请（专利权）人：	重庆大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06V20/62
代理公司：	重庆晟轩知识产权代理事务所(普通合伙) 50238	代理人：	王海凤
地址：	400044 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于交叉注意力视频字幕片段检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多交叉注意力的视频与字幕片段检索方法，包括得到给定视频V的特征矩阵E_v；提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s；计算E_q与E_v，E_q与E_s之间的关联关系，得到和将和转化为q^(v)和q^(s)；计算最终每个片段与查询语句之间的匹配度；训练前述模型，将新视频数据输入训练后的模型得到概率P^st和P^ed，根据P^st和P^ed中概率值的大小排序，找出P^st和P^ed的值均大的N个片段作为查找的片段。该方法既能处理多个模态数据之间的关系，又可以实现双向注意力引导，从而保证先进的视频‑片段检索性能。

技术领域

本发明涉及视频-语言理解技术领域，具体涉及一种基于多交叉注意力的视频与字幕片段检索方法。

背景技术

随着视频拍摄设备的普及，互联网上视频的数量呈现爆炸式的增长。对于只对原始视频的特定部分感兴趣的用户而言，浏览整个视频是耗时费力的，视频片段检索成为迫切需求。现有方法大多关注语句查询与视频视觉信息的匹配，较少利用视频附带的字幕等文字信息。基于视频与字幕的片段检索要求同时理解查询、视频、字幕三种模态之间的关系，是一个非常具有挑战性的任务。

为了完成视频与字幕片段检索任务，一个直接的方法是新增一个额外的模块来对查询语句和字幕之间的关系进行建模。由于缺少对视频与字幕关系的建模，该种方法的能力有限。为此，跨模态编码学习成为当前研究的主要关注点，但目前的方法主要着眼于语句层面浅层次的查询关系建模，不能有效实现更细粒度的单词级跨模态深层关系学习，限制了视频与字幕片段检索的性能。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于多交叉注意力的视频与字幕片段检索方法，具备能够很好的对查询语句-视频和查询语句-字幕在单词-片段级别进行细粒度建模，提高了视频与字幕片段检索的性能。

(二)技术方案

为了解决上述问题，本发明设计了一个新的多交叉注意力来完成视频与字幕片段检索任务。为实现上述所说的有效对查询语句-视频和查询语句-字幕在单词-片段级别进行细粒度建模，本发明采用的具体技术方案如下：

一种基于多交叉注意力的视频与字幕片段检索方法，包括如下步骤：

S1：对视频片段和其对应字幕检索进行如下定义；

定义q＝{w₁,w₂,...,w_m}为一个查询语句，m表示查询语句q中的单词总数；

给定视频V，将视频拆分为n个不相交的片段{c₁,c₂,...,c_n},每个片段有与该片段对应的字幕信息；

最终检索到的片段即可以被表示为{c_st,c_st+1,...,c_ed},其中c_st,c_ed分别表示检索的开始片段和结束片段；

S2：提取V中n个片段的外观特征和动作特征，并将每个片段的外观特征和动作特征整合得到V的特征矩阵E_v；

S3：提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s；