[发明专利]一种跨模态图文检索方法在审
申请号: | 201910741822.8 | 申请日: | 2019-08-12 |
公开(公告)号: | CN110457516A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 强保华;陈锐东;谢武;赵天;卢永全 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 44220 广州市一新专利商标事务所有限公司 | 代理人: | 侯腾腾<国际申请>=<国际公布>=<进入 |
地址: | 541004广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于栈式跨模态自编码器的跨模态图文检索方法,其主要目的是提高跨模态图文检索的精确度。首先,对图像和文本数据进行预处理,得到图像特征和文本特征,再通过两层受限玻尔兹曼机,提取单模态表示;其次,通过构建深层次的栈式跨模态自编码器,挖掘模态间的相关性;最终,训练模型并得到模型文件,在验证集上完成跨模态图文检索任务。本发明在实现了图文检索中常用的两种检索任务(以图检文和以文检图)的基础上,还能实现输入一种模态数据返回多种模态数据,在三个跨模态图文检索数据集上提升了模型检索精确度和泛化能力。 | ||
搜索关键词: | 模态 图文检索 模态数据 编码器 栈式 受限玻尔兹曼机 预处理 模型检索 模型文件 图像特征 文本数据 文本特征 训练模型 单模态 数据集 验证集 构建 两层 检索 图像 返回 挖掘 | ||
【主权项】:
1.一种跨模态图文检索方法,所述方法包括如下步骤:/n(1)给定原始跨模态图文检索数据集,其中包括图像和文本两种模态数据,分为训练集、验证集以及测试集;/n(2)构建基于栈式跨模态自编码器的图文检索模型:模型第一层选用Gaussian RBM和Replicated Softmax RBM提取输入的图像数据和文本数据的特征表示,并约减图像特征维度和文本特征维度,进行利用对比散度算法对第一层RBM进行训练,并更新权重参数;将模型第一层输出的单模态特征表示用于第二层输入,模型第二层选用两个原始RBM加深网络的深度,学习深层次的单模态表示,进一步约减不同模态的特征维度到512维;在所述图文检索模型的关联学习阶段,首先,构建包含图像文本对和单模态输入的扩增数据集,作为模型的输入;其次,在自编码器隐藏层之间引入关联误差函数学习模态间的关联信息,使得模型可以更好地建模不同模态间的语义相关性;最终,在训练过程中,采用layer-wise训练策略,通过分层逐步训练跨模态自编码器提升模型的学习能力,从而提升模型的表征能力;/n(3)对图片数据和文本数据进行预处理,提取各自的单模态特征表示:利用跨模态数据集中训练集对深度卷积神经网络VGG-16模型进行微调,更新模型参数,并采用交叉验证的方式得到最优模型;利用微调后的所述深度卷积神经网络VGG-16模型提取图像数据的单模态特征表示,将fc7层作为网络的输出,得到4096维的图像特征表示向量;/n(4)通过所述4096维的图像特征和文本数据的词袋特征作为所述图文检索模型关联学习阶段的输入,训练模型,并提取图像和文本的最终表示;通过相似性度量函数对图像数据和文本数据间的共享表示计算距离;对获得的结果依照距离从小到大排列,最终得到的排序结果即是跨模态检索结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910741822.8/,转载请声明来源钻瓜专利网。