[发明专利]一种基于注意力机制和门控机制的图文检索方法和系统有效
| 申请号: | 202110160697.9 | 申请日: | 2021-02-05 |
| 公开(公告)号: | CN112966135B | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 程起敏;周玉琢;甘德樵;邵丽媛;黄海燕;黄小松 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/53 | 分类号: | G06F16/53;G06N3/04;G06N3/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 门控 图文 检索 方法 系统 | ||
本发明公开了一种基于注意力机制和门控机制的图文检索方法和系统,属于跨模态检索领域。本发明通过注意力机制快速筛选出有价值的信息,以获取更加精确的特征表达,在此基础上,为了使模态之间的对应关系更加显著,通过将两种模态的数据互相作为监督信息,并引入门控机制对另一模态特征进行进一步的调整,以尽可能多地过滤掉不必要的信息,保留语义丰富的部分,最终获得具有足够通用语义和准确注意力的图像特征,从而有效地提高跨模态检索模型的性能。
技术领域
本发明属于跨模态检索领域,更具体地,涉及一种基于注意力机制和门控机制的图文检索方法和系统。
背景技术
随着地球观测技术的飞速发展,遥感数据的数量和质量也在迅速增加。为了从海量数据中精准地筛选出有用的信息,前人进行了大量的研究,如遥感图像检索,即输入一幅遥感图像作为查询图像,最终输出与之相似的遥感图像集合作为检索结果。目前,遥感图像检索技术已经较为成熟,现有的检索方法在基准遥感数据集上都可以获得非常高的精度。然而,数据的类型是多种多样的,人们常常会用不同模态的数据来描述同一个实体。例如,给定一个查询文本,人们可能希望检索出与之对应的图像或视频。由于跨模态数据之间存在异构性,不同模态的数据往往分布在不同的特征空间上,因此通过异构数据的语义对齐实现跨模态检索成为了一项非常有挑战性的任务。
传统的语义对齐算法,主要是基于核典型相关分析进行的,即利用核方法学习得到一种能够将两种异构数据特征之间的相关性最大化的映射。虽然这是一种十分有效的语义对齐算法,但是这种算法需要保留一定的空间以便在训练的时候将两种异构数据的内核矩阵保存下来,这种做法对于内存的消耗和依赖是很大的。而基于深度学习的语义对齐算法则可以有效地解决这些问题。基于深度学习的语义对齐算法大多是将自编码器、循环递归神经网络、卷积神经网络等深度网络模型应用在语义对齐模型中,以得到不同模态数据的深度特征表示,并在一个损失函数的监督下,将两种异构数据的特征映射到一个公共的潜在空间中进行对齐。
深度学习技术可以从数据中抽取更深层的语义信息,有助于解决低层视觉特征和高级语义理解之间的语义鸿沟问题。但是,现有的大多数基于深度学习的语义对齐方法都只是简单地将不同模态的特征映射到一个公共的潜在嵌入空间当中,平等地、无差别地对待不同类型的单词或图像区域,然后在这个空间中进行语义对齐。这类方法很难捕捉到细粒度的语义差别,因此也很难对不同模态的数据之间的复杂对应关系进行很好的建模,在一定程度上直接限制了跨模态检索模型的性能。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于注意力机制和门控机制的图文检索方法和系统,其目的在于提高跨模态检索模型的性能。
为实现上述目的,本发明提供了一种基于注意力机制和门控机制的图文检索方法,包括:
S1.构建跨模态检索模型;所述跨模态检索模型包括:图像视觉特征提取模块、文本语义特征提取模块、注意力模块和门控机制模块;
图像视觉特征提取模块,用于获取遥感图像的区域特征;文本语义特征提取模块,用于获取文本所包含单词的特征;图像区域特征和文本单词特征构成不同模态的高层语义特征;
注意力模块,用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中,并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;
门控机制模块,用于构造一个基于门控机制的函数组,将新的全局特征作为监督信息,对另一模态的特征进行更新和优化,加强两种不同模态特征之间的语义对齐关系;
S2.以图像库和对应的语料库作为训练集,训练所述跨模态检索模型;
S3.将待检索的图片或文本输入至训练好的跨模态检索模型中,得到对应的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110160697.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:照明一体化的建筑玻璃栏板
- 下一篇:利用消防水池的水蓄能系统





