[发明专利]基于双重编码与联合的跨模态检索方法、系统及存储介质有效
申请号: | 201911426231.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111191075B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 肖菁;崔晓桃 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/783 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510631 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双重 编码 联合 跨模态 检索 方法 系统 存储 介质 | ||
1.基于双重编码与联合的跨模态检索方法,其特征在于,包括以下步骤:
获取训练集视频;
通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量{v1,v2,...,vn}以及词嵌入向量{w1,w2,...,wm};其中vt代表视频第t帧的特征向量,wt代表文本句子中第t个单词的词嵌入向量;
对所述特征向量{v1,v2,...,vn}进行编码处理,将编码处理后的记过通过平均池化层得到特征向量f(v);
其中,v属于dv维的欧式空间;
将所述视频各帧特征向量划分为静态特征及动态特征,所述静态特征为外观特征经过所述平均池化层编码后的特征向量;所述动态特征为活动特征与声音特征分别经过平均池化层编码后的特征向量;
通过门嵌入对所述静态特征和动态特征进行二次编码,二次编码的过程满足如下公式:
其中,是可学习参数,σ是sigmoid激活函数,符号/是元素乘法;
对所述词嵌入向量进行编码;所述词嵌入向量的编码过程包括:基于双向门控循环单元编码以及对双向门控循环单元编码结果进行加深;
所述双向门控循环单元的隐藏状态为:
其中,和/分别代表前向和后向的门控循环单元,双向门控循环单元的输出为文本上下文信息的特征表示f(scontext)满足如下公式:
加深过程中的卷积神经网络为:
ck=max-pooling(ReLU(Conv1dk,r(H)))
其中,Conv1dk,r是一个由512个大小为k(k=2,3)滤波器的一维卷积块;加深后得到的特征表示f(slocal)满足如下公式:
f(slocal)=[c2,c3]
通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;
通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;
根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。
2.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述视频各帧特征向量具体包括:外观特征向量、活动特征向量和声音特征向量。
3.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果,其步骤具体包括:
获取查询目标和待检索视频,所述查询目标为文本语句或视频片段;
当查询目标为文本语句,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述文本语句对应的视频片段;
当查询目标为视频片段,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述视频片段对应的文本内容。
4.根据权利要求3所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述相似度为余弦相似度。
5.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码,其步骤具体包括:
通过平均池化层将所述外观特征向量转化为所述静态特征;
通过平均池化层将所述活动特征向量和所述声音特征向量转化为所述动态特征;
通过非线性嵌入函数对所述静态特征和所述动态特征进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911426231.8/1.html,转载请声明来源钻瓜专利网。