[发明专利]一种受阅读策略启发的跨模态视频检索方法在审

专利信息
申请号: 202111084182.1 申请日: 2021-09-15
公开(公告)号: CN114003770A 公开(公告)日: 2022-02-01
发明(设计)人: 王雅冰;董建锋;陈先客;王勋;徐晓刚;王军 申请(专利权)人: 之江实验室;浙江工商大学
主分类号: G06F16/783 分类号: G06F16/783;G06K9/62;G06N3/04
代理公司: 杭州浙科专利事务所(普通合伙) 33213 代理人: 孙孟辉
地址: 310023 浙江省杭州市余*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 受阅 策略 启发 跨模态 视频 检索 方法
【权利要求书】:

1.一种受阅读策略启发的跨模态视频检索方法,其特征在于,包括如下步骤:

(1)采用预先训练的卷积神经网络提取视频模态的初始特征,得到视频的初始特征序列;

(2)将初始特征序列输入并通过预览分支进行编码得到视频中的预览特征;

(3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征,后感知并集成预览特征,提取出精读特征;

(4)使用预训练的BERT模型对文本模态进行编码,得到文本多级编码特征;

(5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空间,通过混合空间计算视频模态与文本模态之间的相似度来进行跨模态匹配;

(6)优化并训练通过步骤(1)至步骤(5)建立的检索模型,最后将视频和文本输入到训练好的检索模型中来实现文本到视频的跨模态检索。

2.如权利要求1所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(2)具体为:将视频帧特征序列输入到预览分支的双向GRU网络,双向GRU由一个前向GRU和后向GRU组成,将在前向GRU和后向GRU中所有特定时间步{t=1,...,m}的隐藏状态进行拼接作为双向GRU的输出,得到一个特征向量序列H={h1,h2,...,hm},大小为m×1024维;然后沿着时间维度对特征向量序列H应用平均池化操作来获得预览特征向量,即

3.如权利要求2所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(3)具体包括以下步骤:

(3-1)首先使用精读分支的全连接层对视觉特征序列进行降维,得到降维后的视觉特征序列V′;

(3-2)然后将V′输入卷积核大小为n,步长为s,卷积核数量为r的卷积神经网络CNN来提取不同长度的片段特征,具体公式表示为:

Cn=δ(Conv1Dr,n,s(V′))

其中δ代表Relu激活函数;

将由不同大小的卷积核生成的分段特征放在一起,获得多粒度片段特征,即:

其中φ表示卷积核的大小,mn表示长度为n的片段的数量,r是片段特征向量的维度,向量化片段特征后为C′,使用视觉特征序列V′作为长度为1的片段特征;

(3-3)对多粒度片段特征,进行感知预览注意力操作得到精读特征向量。

4.如权利要求3所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(3-3)具体为:

首先,将预览特征向量p映射为一个dk维的查询query特征向量Q,将片段特征向量C′分别映射为一个dk维的键key特征向量K和dv维的值value特征向量V,然后使用query和value通过点积计算来得到注意力权重,再将得到的注意力权重与value特征向量进行加权和,得到一个注意力特征向量O,即:

O=W4Attention(pW1,C′W2,C′W3)

其中W1,W2,W3和W4是可学习的映射矩阵参数;

接着使用残差操作来增强输入,得到更新后的注意力特征向量O′,即:

O′=LN(O+maxpool(C′))

其中,LN表示层归一化和最大池化操作,对片段特征向量沿时间维度进行了池化操作;

在获得了注意力特征向量之后,利用带有残差和层归一化的前馈网络对上述特征向量做进一步增强,通过使用多层感知机MLP来实现前馈网络,即:

PaA(p,C′)=LN(o′+MLP(o′))

其中,MLP由两个全连接层和Relu激活函数组成的;

最后对于多粒度片段特征,并行地对每个粒度执行上述的感知预览注意力操作,并将每个粒度的输出拼接起来作为精读分支的最终输出,得到精读特征向量g,具体表示如下:

其中,ConCat表示拼接操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;浙江工商大学,未经之江实验室;浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111084182.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top