[发明专利]一种受阅读策略启发的跨模态视频检索方法在审
| 申请号: | 202111084182.1 | 申请日: | 2021-09-15 | 
| 公开(公告)号: | CN114003770A | 公开(公告)日: | 2022-02-01 | 
| 发明(设计)人: | 王雅冰;董建锋;陈先客;王勋;徐晓刚;王军 | 申请(专利权)人: | 之江实验室;浙江工商大学 | 
| 主分类号: | G06F16/783 | 分类号: | G06F16/783;G06K9/62;G06N3/04 | 
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 | 
| 地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 受阅 策略 启发 跨模态 视频 检索 方法 | ||
本发明涉及视频跨模态检索技术领域,尤其涉及一种受阅读策略启发的跨模态视频检索方法,对于视频编码,采用预览分支和精读分支共同学习来表示视频,预览分支旨在简要地捕捉视频的概述信息,而精读分支旨在获取更深入的信息,本发明将从预览分支生成的较早的视频特征集成到精读分支中,对精读分支的特征提取做进一步指导,使得精读分支可以感知预览分支捕获的视频概述,用于提取更细粒度的特征,将两个分支的得到特征分别与文本特征映射到两个不同的混合空间中,在混合空间中进行跨模态匹配,从而实现文本到视频的跨模态检索。本发明使用端到端的方式训练模型,并在性能和模型复杂度上达到了最佳平衡。
技术领域
本发明涉及视频跨模态检索技术领域,尤其涉及一种受阅读策略启发的跨模态视频检索方法。
背景技术
随着YouTube和TikTok等视频流媒体平台的日益普及,视频数据出现了爆炸式增长。本发明的目标是实现基于语言的视频检索。给定一个自然语言句子形式的查询,它被要求从大量无标签的视频中检索与给定查询语义相关的视频。
为了建立这样的视频检索模型,如何计算两种模态即视频和文本之间的语义相似度是至关重要的。早期基于语言的视频检索是基于概念的方法,它们将视频和文本查询表示到预定义的概念空间,并通过概念匹配计算相似度。由于基于概念的方法性能有限,因此基于跨模态表示学习的方法更受青睐,它以无概念的方式学习联合嵌入空间来进行跨模态相似度度量,表现出了更好的性能。
本发明在基于跨模态表示学习方法的基础上,重点研究视频表征学习,它是基于语言的视频检索的重要组成部分。视频表征学习的一种典型方法是首先通过预先训练的CNN模型从视频帧中提取视觉特征,然后通过平均池化或最大池化操作将帧级特征聚合为视频级特征。继而使用全连接层进一步将视频级特征映射到联合嵌入空间中。目前的视频表征学习模型可以根据结构大致分为两类:单分支模型和多分支模型。单分支模型主要取代了上述简单的池化策略,对序列感知深度神经网络进行了进一步的探索,但是它们通常是以一种全局的角度进行粗粒度视频表征学习,因此可能无法全面捕捉视频信息。多分支模型通过利用多个分支来对视频进行编码,尽管它们在性能上有了更好的提升,但由于在这种结构中,分支间相互独立,没有进一步的信息交互和传递,因此认为这种方法是次优的。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供一种受阅读策略启发的跨模态视频检索方法,其具体技术方案如下:
一种受阅读策略启发的跨模态视频检索方法,包括如下步骤:
(1)采用预先训练的卷积神经网络提取视频模态的初始特征,得到视频的初始特征序列;
(2)将初始特征序列输入并通过预览分支进行编码得到视频中的预览特征;
(3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征,后感知并集成预览特征,提取出精读特征;
(4)使用预训练的BERT模型对文本模态进行编码,得到文本多级编码特征;
(5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空间,通过混合空间计算视频模态与文本模态之间的相似度来进行跨模态匹配;
(6)优化并训练通过步骤(1)至步骤(5)建立的检索模型,最后将视频和文本输入到训练好的检索模型中来实现文本到视频的跨模态检索。
进一步的,所述步骤(2)具体为:将视频帧特征序列输入到预览分支的双向GRU网络,双向GRU由一个前向GRU和后向GRU组成,将在前向GRU和后向GRU中所有特定时间步{t=1,…,m}的隐藏状态进行拼接作为双向GRU的输出,得到一个特征向量序列H={h1,h2,…,hm},大小为m×1024维;然后沿着时间维度对特征向量序列H应用平均池化操作来获得预览特征向量,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;浙江工商大学,未经之江实验室;浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111084182.1/2.html,转载请声明来源钻瓜专利网。





