[发明专利]一种基于监督的跨模态检索方法、装置、设备及介质在审

专利信息
申请号: 202011044741.1 申请日: 2020-09-28
公开(公告)号: CN112148916A 公开(公告)日: 2020-12-29
发明(设计)人: 李国徽;袁凌;周思远;徐志鹏;潘鹏 申请(专利权)人: 华中科技大学
主分类号: G06F16/583 分类号: G06F16/583;G06F16/538;G06K9/62;G06N3/04;G06N3/08
代理公司: 华中科技大学专利中心 42201 代理人: 李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 跨模态 检索 方法 装置 设备 介质
【权利要求书】:

1.一种基于监督的跨模态检索方法,其特征在于,包括以下步骤:

S1:分别对图像模态和文本模态的训练样本数据进行特征提取,所述训练样本数据从图文数据集中获取;

S2:将提取的图像数据特征和文本数据特征映射至公共表示空间;

S3:分别计算标签空间的损失、所述公共表示空间中各个模态内和不同模态间的损失、以及图像和文本模态间的不变性损失,并加以不同的权重,得到检索模型的损失函数;

S4:通过最小化所述损失函数来优化所述检索模型的参数,得到优化后的检索模型;

S5:将目标检索数据利用所述优化后的检索模型映射到所述公共表示空间,计算所述目标检索数据与所述图文数据集中数据之间的相似度,从而得到与所述目标检索数据对应的检索排序结果。

2.根据权利要求1所述的基于监督的跨模态检索方法,其特征在于,所述步骤S1中包括:

S11:利用深度卷积神经网络对图像模态的训练样本数据进行特征提取,并在图像提取子网络之后加第一全连接层;

S12:利用自然语言处理模型对文本模态的训练样本数据进行特征提取,并在文本提取子网络之后加第二全连接层。

3.根据权利要求2所述的基于监督的跨模态检索方法,其特征在于,所述步骤S2包括:

在所述第一全连接层和所述第二全连接层之后加第三全连接层,通过所述第三全连接层将提取的图像数据特征和文本数据特征映射至公共表示空间。

4.根据权利要求3所述的基于监督的跨模态检索方法,其特征在于,在所述第三全连接层之后加一个线性分类器来预测图像和文本的类别,并与真实的类别相比较,从而计算得到标签空间的损失。

5.根据权利要求1所述的基于监督的跨模态检索方法,其特征在于,

所述损失函数表示为:L=λL1+μL2+ηL3,其中,

L1为标签空间的损失,n为图片文本数据对的个数,||·||F表示Frobenius范数,P是线性分类器的投影矩阵,α和β分别为图像和文本预测标签对应的权重,U、V、Y分别为公共表示空间中图像的表示矩阵、文本的表示矩阵、对应标签的表示矩阵;

L2为所述公共表示空间中各个模态内和不同模态间的损失,Γij=cos(ui,vj),Φij=cos(ui,uj),Θij=cos(vi,vj),cos是余弦函数,用来衡量相似度;sgn是符号函数,若两个表示元素属于同一个类则为1,否则为0;用于映射图像模态,用于映射文本模态,其中和为第i个图像样本和第j个文本样本,Υα和Υβ为可学习的参数;

L3为图像和文本模态间的不变性损失;

λ、μ、η分别为L1、L2、L3的权重系数。

6.根据权利要求1所述的基于监督的跨模态检索方法,其特征在于,步骤S5中,计算所述目标检索数据与所述图文数据集中数据之间的相似度,包括:通过对跨模态数据相似度和同模态数据相似度进行加权平均,计算得到所述目标检索数据与所述图文数据集中数据之间的相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011044741.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top