[发明专利]一种基于监督的跨模态检索方法、装置、设备及介质在审
| 申请号: | 202011044741.1 | 申请日: | 2020-09-28 |
| 公开(公告)号: | CN112148916A | 公开(公告)日: | 2020-12-29 |
| 发明(设计)人: | 李国徽;袁凌;周思远;徐志鹏;潘鹏 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/538;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 跨模态 检索 方法 装置 设备 介质 | ||
1.一种基于监督的跨模态检索方法,其特征在于,包括以下步骤:
S1:分别对图像模态和文本模态的训练样本数据进行特征提取,所述训练样本数据从图文数据集中获取;
S2:将提取的图像数据特征和文本数据特征映射至公共表示空间;
S3:分别计算标签空间的损失、所述公共表示空间中各个模态内和不同模态间的损失、以及图像和文本模态间的不变性损失,并加以不同的权重,得到检索模型的损失函数;
S4:通过最小化所述损失函数来优化所述检索模型的参数,得到优化后的检索模型;
S5:将目标检索数据利用所述优化后的检索模型映射到所述公共表示空间,计算所述目标检索数据与所述图文数据集中数据之间的相似度,从而得到与所述目标检索数据对应的检索排序结果。
2.根据权利要求1所述的基于监督的跨模态检索方法,其特征在于,所述步骤S1中包括:
S11:利用深度卷积神经网络对图像模态的训练样本数据进行特征提取,并在图像提取子网络之后加第一全连接层;
S12:利用自然语言处理模型对文本模态的训练样本数据进行特征提取,并在文本提取子网络之后加第二全连接层。
3.根据权利要求2所述的基于监督的跨模态检索方法,其特征在于,所述步骤S2包括:
在所述第一全连接层和所述第二全连接层之后加第三全连接层,通过所述第三全连接层将提取的图像数据特征和文本数据特征映射至公共表示空间。
4.根据权利要求3所述的基于监督的跨模态检索方法,其特征在于,在所述第三全连接层之后加一个线性分类器来预测图像和文本的类别,并与真实的类别相比较,从而计算得到标签空间的损失。
5.根据权利要求1所述的基于监督的跨模态检索方法,其特征在于,
所述损失函数表示为:L=λL1+μL2+ηL3,其中,
L1为标签空间的损失,n为图片文本数据对的个数,||·||F表示Frobenius范数,P是线性分类器的投影矩阵,α和β分别为图像和文本预测标签对应的权重,U、V、Y分别为公共表示空间中图像的表示矩阵、文本的表示矩阵、对应标签的表示矩阵;
L2为所述公共表示空间中各个模态内和不同模态间的损失,Γij=cos(ui,vj),Φij=cos(ui,uj),Θij=cos(vi,vj),cos是余弦函数,用来衡量相似度;sgn是符号函数,若两个表示元素属于同一个类则为1,否则为0;用于映射图像模态,用于映射文本模态,其中和为第i个图像样本和第j个文本样本,Υα和Υβ为可学习的参数;
L3为图像和文本模态间的不变性损失;
λ、μ、η分别为L1、L2、L3的权重系数。
6.根据权利要求1所述的基于监督的跨模态检索方法,其特征在于,步骤S5中,计算所述目标检索数据与所述图文数据集中数据之间的相似度,包括:通过对跨模态数据相似度和同模态数据相似度进行加权平均,计算得到所述目标检索数据与所述图文数据集中数据之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011044741.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的餐后食物浪费监测系统
- 下一篇:空气在线监测设备





