[发明专利]一种基于元学习的无监督跨模态哈希检索方法在审
| 申请号: | 202010478822.6 | 申请日: | 2020-05-29 |
| 公开(公告)号: | CN111753190A | 公开(公告)日: | 2020-10-09 |
| 发明(设计)人: | 庄瑜;赖韩江 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06F16/435;G06F16/438;G06F16/45;G06F16/31;G06F16/338;G06F16/35;G06F16/538;G06F16/55;G06N3/04;G06N3/08 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 学习 监督 跨模态哈希 检索 方法 | ||
本发明提供一种基于元学习的无监督跨模态哈希检索方法,该方法使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征,输入到哈希模型中,之后对辅助图像集和文本集进行聚类,再利用元学习训练方法(MAML),在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型。由于聚类,得到辅助数据集的弱监督标签,再通过这些弱监督信息,指导目标跨模态数据集的梯度更新方向,使检索准确率得到提高。
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于元学习的无监督跨模态哈希检索方法。
背景技术
随着信息化发展,多模态数据量的日益增多,跨模态检索的应用变得越来越重要,引起了人们的广泛关注,信息的存在方式并不是单一的,它是多种多样并且存在交叉。如何利用多种模态的信息互补帮助提高检索大规模数据库的效率变得尤为重要。
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。虽然有些数据的存在形式不同,但都是描述同一事物或事件的。现有的检索技术主要为单模态检索和多模态检索。单模态检索要求查询词和检索集属于同一种模态类型,例如:查询词是图片,检索集也为图片集。而在多模态检索中,查询集和检索集必须至少有一个模态是相同的。例如:查询词是图片,文本,检索集是文本集。多模态检索融合了不同模态进行检索,利用不同模态的信息互补达到提高检索准确率的目的。而在跨模态检索中,查询的模态和检索集的模态是不同的,利用其中一种模态的数据作为查询,检索另一种模态的相关数据。例如:用图像数据检索文本数据。而在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来丰富对同一事物或事件的认知,此时就需要跨模态检索来实现不同模态数据之间的检索。
多模态数据映射成二进制哈希码来完成检索的方法已经得到了广泛的研究,这些方法可分为三类:1)无监督方法;2)基于成对信息的方法;3)有监督方法。只利用同时出现的成对信息,例如:Flicker数据集上的图像-标签对,是属于无监督方法。第二类方法利用了相似的成对信息和不相似的成对信息。有监督方法利用了标签信息。由于收集足够的相似性或标签信息,需要耗费大量的人力,因此本文研究的对象是无监督方法。
由于无监督方法缺乏大量标签信息,所以利用额外的无标签单模态数据集里预测梯度下降的方向,通过元学习的训练方法(MAML),更新网络参数。元学习(Meta Learning),又叫做“学会学习”(Learning to learn),是利用以往的知识经验来指导新任务的学习,使模型具有学会学习的能力,而本发明的目的不是传统的适应新任务学习的目的,而是利用元学习的方法达到迁移学习的目的,从而获得更多弱监督信息。
申请号为201911065035.2的专利说明书中公开了一种多语义深度监督跨模态哈希检索方法,该方法利用深度神经网络,结合训练数据的监督语义信息,分别学习多个模态的哈希映射模型:将给定特定模态的图像查询数据送入到对应模态的神经网络中,通过深度网络所学习的哈希映射将图像模态数据转换为哈希码,然后与数据库中另一模态的哈希码进行距离的计算,最终返回与查询最相似的数据。然而,该专利无法实现利用元学习的方法达到迁移学习的目的,从而获得更多弱监督信息。
发明内容
本发明提供一种基于元学习的无监督跨模态哈希检索方法,该方法实现利用元学习的方法达到迁移学习的目的,从而获得更多弱监督信息。
为了达到上述技术效果,本发明的技术方案如下:
一种基于元学习的无监督跨模态哈希检索方法,包括以下步骤:
S1:使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征;
S2:在特征提取模型后加上哈希检索表征转换层,即哈希模型;
S3:对辅助图像集和文本集进行聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010478822.6/2.html,转载请声明来源钻瓜专利网。





