[发明专利]基于注意机制的陆战场图像-文本跨模态检索方法及其系统有效
| 申请号: | 202110809148.X | 申请日: | 2021-07-16 |
| 公开(公告)号: | CN113657450B | 公开(公告)日: | 2022-11-29 |
| 发明(设计)人: | 李臣明;郑云飞;张威;邢立新 | 申请(专利权)人: | 中国人民解放军陆军炮兵防空兵学院 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 李璐 |
| 地址: | 230031 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意 机制 陆战 图像 文本 跨模态 检索 方法 及其 系统 | ||
本发明公开了一种基于注意机制的陆战场图像‑文本跨模态哈希检索方法,具体步骤如下:(1)特征提取,将注意力模块嵌入残差结构,更好地抑制复杂背景干扰,提取图像的特征表示;利用多尺度结构提取文本的特征表示;(2)自监督对抗学习模型,通过深度神经网络将标签信息映射为目标的公共语义特征与哈希编码;以此为监督信息分别和图像特征、文本特征度量差异,并构建两个判别器获得图像、文本的对抗损失;融合自监督损失与对抗损失,实现模型的学习、构建。还公开了一种基于注意机制的陆战场图像‑文本跨模态哈希检索系统。本发明克服了陆战场环境下背景复杂、目标伪装、遮挡等复杂条件,有效实现了图像‑文本数据跨模态哈希检索。
技术领域
本发明涉及跨模态检索技术领域,特别是涉及一种基于注意机制的陆战场图像-文本跨模态检索方法及其系统。
背景技术
跨模态哈希检索技术将不同模态的数据映射到同一命名空间,通过二值哈希码表示目标,实现目标检索,具有运行速度快、占用资源少的优点。图像和文本是战场上最常见的两种目标信息形式,本发明涉及的图像-文本跨模态哈希检索能为战场态势分析、任务规划等提供多维度的信息支持,有重要的应用价值。
传统基于手工特征(Discrete graph hashing,2014)或浅层学习(Cross-modality binary code learning via fusion similarity hashing,2017)的方法难以提取有效的目标特征表示,因此检索的效果并不理想。近年来,深度神经网络由于其层次化的表示结构和强大的学习能力,在计算机视觉的许多领域取得成功,其也被应用到跨模态哈希检索任务中。 Jiang等人(DCMH,Deep Cross-Modal Hashing,2017)利用深度卷积网络VGG-F提取图像特征,利用包含3个全连接层的深度神经网络提取文本特征。将图像和文本数据共同的哈希编码作为监督信息,融合两种模态特征的相似性、两种模态网络生成的哈希编码分别与监督信息的差异组成模型的优化目标,并通过两种模态网络交替优化的方式完成跨模态检索模型的学习、构建。Li等人(Self-Supervised Adversarial HashingNetworks for Cross-Modal Retrieval,2018)在以上模型基础上加入自监督和对抗学习结构,增强模态间特征的语义相关性和一致性,从而提升检索效果。Xie等人(Multi-TaskConsistency-Preserving Adversarial Hashing for Cross-Modal Retrieval,2020)将多任务学习思想应用到跨模态哈希检索中,设计一致性提炼模块嵌入每种模态的特征提取网络中,结合对抗学习改进模态间特征表示的一致性,进而改进检索效果。以上检索方法主要应用在通用场景的图像-文本数据中,然而在战场环境下,图像的背景复杂,目标常常被覆盖伪装纹理、烟雾遮挡,检索任务对于图像数据尤其需要更鲁棒的特征表示。
因此亟需提供一种新型的陆战场图像-文本跨模态检索方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于注意机制的陆战场图像-文本跨模态检索方法及其系统,能够将注意机制融入深度残差网络获取更鲁棒的图像表示,结合自监督对抗学习结构完成战场环境下的跨模态检索任务。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于注意机制的陆战场图像-文本跨模态检索方法,包括以下步骤:
S1:图像特征提取:将注意力模块嵌入残差结构,提取图像的特征表示;再将图像特征向量分别输入两组全连接层-激活层结构,获得图像的预测标签和预测哈希编码;
S2:文本特征提取:搭建一个深度神经网络,利用多尺度结构提取文本的特征表示,再将文本特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码;
S3:自监督标签特征生成:通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息;将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军炮兵防空兵学院,未经中国人民解放军陆军炮兵防空兵学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110809148.X/2.html,转载请声明来源钻瓜专利网。





