[发明专利]一种基于监督的跨模态检索方法、装置、设备及介质在审

专利信息
申请号: 202011044741.1 申请日: 2020-09-28
公开(公告)号: CN112148916A 公开(公告)日: 2020-12-29
发明(设计)人: 李国徽;袁凌;周思远;徐志鹏;潘鹏 申请(专利权)人: 华中科技大学
主分类号: G06F16/583 分类号: G06F16/583;G06F16/538;G06K9/62;G06N3/04;G06N3/08
代理公司: 华中科技大学专利中心 42201 代理人: 李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 跨模态 检索 方法 装置 设备 介质
【说明书】:

发明公开了一种基于监督的跨模态检索方法、装置、设备及介质,方法包括:对图像模态和文本模态的训练样本数据进行特征提取;将提取的图像数据特征和文本数据特征映射至公共表示空间;分别计算标签空间的损失、公共表示空间中各个模态内和不同模态间的损失、以及图像和文本模态间的不变性损失,并加以不同的权重,得到检索模型的损失函数;通过最小化损失函数来优化检索模型的参数;将目标检索数据利用优化后的检索模型映射到公共表示空间,计算目标检索数据与图文数据集中数据之间的相似度,得到对应的检索排序结果。如此,保留了不同语义数据样本的判别性以及原始数据的语义信息,能更有效地计算跨模态数据间的相关性,具有更高的检索准确率。

技术领域

本发明涉及数据检索技术领域,更具体地,涉及一种基于监督的跨模态检索方法、装置、设备及介质。

背景技术

随着科学技术的快速发展,科技信息的产生形式和获取渠道日益丰富。各类科技信息的数据表现形式丰富多样,已从单一化的文本数据逐渐转变为表达形式更为生动、内容更为丰富的图片、视频等其他模态的混合数据类型。传统的单模态检索方法,在单一的模态上查询效果良好,但由于不同模态的数据间可能存在特征异构性和弱相关性,导致了不同模态数据的特征向量因维数、属性不同而彼此之间无法直接参与计算,使得单模态检索不适用于多种模态之间的检索。跨模态检索方法利用不同模态间存在的语义相似性,在多模态数据之间检索相似内容。通过跨模态检索方法,可以满足对多模态科技信息的多角度智能分析的需求。

跨模态检索的核心在于怎样衡量不同模态数据间的内容相似性,也就是要解决不同模态数据间的异质性。表示学习是一种用来克服不同模态数据间异质性的通用方法,该方法旨在设计合适的函数将不同模态的数据映射到一个公共表示空间,在这个表示空间中,由于数据的维度一致,所以不同模态数据之间的相似性可以直接求解。为了构造适当的表示空间,研究者提出了许多设计映射函数的方法。

传统的方法使用统计相关性分析来通过优化目标统计值而学习线性函数,但现实世界中的多模态数据之间的关联性是复杂的,线性函数并不能完全建模出映射关系。由于深度神经网络在表示学习领域表现优异,大量基于深度学习的方法被用来学习多模态数据的公共表示空间。相对于无监督的方法,基于监督的深度学习方法可以用来学习更具判别性的表示特征,从而使得不同类别的数据能在公共表示空间中更好地分离。现有的基于监督的跨模态检索方法包括利用标签信息来学习多模态数据间的判别特征、利用分类信息来学习各个模态内的语义或判别性等。虽然这些方法使用到了分类信息,但这些分类信息仅仅被用于学习每个模态内或多个模态间的判别特征,所以这些跨模态的方法并没有充分利用原始数据中的语义信息。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种基于监督的跨模态检索方法、装置、设备及介质,其目的在于解决现有的跨模态检索方法未充分利用原始数据中的语义信息,导致检索准确率低的技术问题。

为实现上述目的,本发明提供了一种基于监督的跨模态检索方法,包括以下步骤:S1:分别对图像模态和文本模态的训练样本数据进行特征提取,所述训练样本数据从图文数据集中获取;S2:将提取的图像数据特征和文本数据特征映射至公共表示空间;S3:分别计算标签空间的损失、所述公共表示空间中各个模态内和不同模态间的损失、以及图像和文本模态间的不变性损失,并加以不同的权重,得到检索模型的损失函数;S4:通过最小化所述损失函数来优化所述检索模型的参数,得到优化后的检索模型;S5:将目标检索数据利用所述优化后的检索模型映射到所述公共表示空间,计算所述目标检索数据与所述图文数据集中数据之间的相似度,从而得到与所述目标检索数据对应的检索排序结果。

进一步地,所述步骤S1中包括:S11:利用深度卷积神经网络对图像模态的训练样本数据进行特征提取,并在图像提取子网络之后加第一全连接层;S12:利用自然语言处理模型对文本模态的训练样本数据进行特征提取,并在文本提取子网络之后加第二全连接层。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011044741.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top