[发明专利]基于双重编码与联合的跨模态检索方法、系统及存储介质有效
申请号: | 201911426231.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111191075B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 肖菁;崔晓桃 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/783 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510631 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双重 编码 联合 跨模态 检索 方法 系统 存储 介质 | ||
本发明公开了一种基于双重编码与联合的跨模态检索方法、系统及装置。该方法一种基于双重编码与双重联合嵌入学习的跨模态检索算法,通过神经网络对视频的多种特征进行提取、编码,对文字特征进行多层编码,并学习训练出两个联合视频文本嵌入的网络模型,通过两个模型获取文本到视频检索结果或视频到文本检索的结果。通过使用本发明中的方法,能够减少视频特征和自然语言描述的文本之间的语义差异,有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系,最终提高视频和文本相互之间检索的精确度。本发明可广泛应用于视频处理技术领域内。
技术领域
本发明涉及视频处理技术领域,尤其是一种基于双重编码与联合的跨模态检索方法、系统、装置及存储介质。
背景技术
模态:是指一种数据的来源或者存在形式,比如文本、音频、图像、视频等。
跨模态:有些数据的存在形式不同,但都是描述同一事物或事件的。
跨模态检索:给定一个检索模态实例,检索另一个跟其实例语义相似或一致的另一模态实例。
随着互联网与信息技术的发展,数据的形式种类越来越多,比较常见的多媒体数据包括文本数据、图像数据、视频数据以及音频数据。互联网上视频的快速增长使得使用自然语言查询搜索视频内容成为一项重大挑战。与简单的图像相比,视频是由连续多帧相互关联的图像序列组成的,因此视频流有时间的推进与空间的变化,具有动态特征;其次,视频还可能包含来自多种形式的信息,例如声音、场景、字幕等。这些信息不仅使视频内容更丰富,也使得视频文本跨模态检索更具有挑战性。对同一个事件的描述,会有不同来源的多种媒体数据,在视频和文本的跨模态检索中,给定视频,应该检索到最相关的描述文本;给定文本,应查询到最相关的视频。由于视频和文本属于不同的模态,如何把这有效地选择、编码视频和文本的特征,如何把特征投影到公共的空间,如何最大化对应视频与文本的相关性成为了该领域重点研究的问题。
目前,关于跨模态检索的研究分为两大类别:图像文本检索、视频文本检索。在图像文本检索方面,规范相关分析(Canonical Correlation Analysis,简称CCA)将不同维度的数据映射到相同的子空间,然后使训练的文本和图像特征相关联起来;难分样本改善视觉语义联合嵌入方法(Visual-Semantic Embeddings with Hard Negatives,简称VSE++)基于三元组损失函数中最难负样本与正样本之间的冲突修改了的成对排名损失函数,并在图文检索任务中取得了一定成效。与图文检索类似,大多数视频文本检索的方法都使用共享子空间,深层视频和合成文本联合建模方法(Jointly Modeling Deep Video andCompositional Text,简称JMDV)依赖树结构模型通过从给定句子中提取的主语、动词、宾语三元组,然后通过递归神经网络聚合为句子级矢量,使用最小二乘损失训练联合嵌入,以将句子表示和视频表示投影到联合空间中。基于句子矢量化和多层感知器的深度视觉编码网络(Word2VisualVec,简称W2VV)提出了一种名为Word2VisualVec的方法,用于视频到句子匹配任务,使用均方损失将向量化的句子投影到视觉特征空间中。
但以上所提及的方法大部分与图像和文本检索方法非常相似,从图文检索中改进而来,并且主要关注损失函数。但是,此类忽视了视频的特性,无法利用视频中已包含的互补性信息,如时空信息、声音信息,这限制了检索系统的健壮性,检索结果精确度不够高,不能满足现实的需求。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一,为此,本发明实施例的目的在于提供一种鲁棒性好,精确度高的基于双重编码与联合的跨模态检索方法、系统及存储介质。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种基于双重编码与联合的跨模态检索方法,包括以下步骤:
获取训练集视频;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911426231.8/2.html,转载请声明来源钻瓜专利网。