[发明专利]一种基于注意力机制和门控机制的图文检索方法和系统有效
| 申请号: | 202110160697.9 | 申请日: | 2021-02-05 | 
| 公开(公告)号: | CN112966135B | 公开(公告)日: | 2022-03-29 | 
| 发明(设计)人: | 程起敏;周玉琢;甘德樵;邵丽媛;黄海燕;黄小松 | 申请(专利权)人: | 华中科技大学 | 
| 主分类号: | G06F16/53 | 分类号: | G06F16/53;G06N3/04;G06N3/08 | 
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 | 
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 门控 图文 检索 方法 系统 | ||
1.一种基于注意力机制和门控机制的图文检索方法,其特征在于,包括:
S1.构建跨模态检索模型;所述跨模态检索模型包括:图像视觉特征提取模块、文本语义特征提取模块、注意力模块和门控机制模块;
图像视觉特征提取模块,用于获取遥感图像的区域特征;文本语义特征提取模块,用于获取文本所包含单词的特征;图像区域特征和文本单词特征构成不同模态的高层语义特征;
注意力模块,用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中,并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;
门控机制模块,用于构造一个基于门控机制的函数组,将新的全局特征作为监督信息,对另一模态的特征进行更新和优化,加强两种不同模态特征之间的语义对齐关系;对另一模态的特征进行更新和优化的函数组包括一个更新门gi和一个新记忆单元ci,由以下公式确定:
gi=sigmoid[li(W1,b1)]
ci=sigmoid[li(W2,b2)]
li(W1,b1)表示权重为W1,偏置为b1的线性拼接,li(W2,b2)表示权重为W2,偏置为b2的线性拼接,W1,b1,W2,b2是待学习的超参数;
对图像区域特征进行更新和优化时,拼接对象是图像区域特征和文本单词特征对应的新的全局特征;对文本单词特征进行更新和优化时,拼接对象是文本单词特征和图像区域特征对应的新的全局特征;
S2.以图像库和对应的语料库作为训练集,训练所述跨模态检索模型;
S3.将待检索的图片或文本输入至训练好的跨模态检索模型中,得到对应的检索结果。
2.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种获取遥感图像的区域特征。
3.根据权利要求2所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用Inception V3网络获取遥感图像的区域特征。
4.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用LSTM网络或GRU网络中的任意一种获取文本所包含单词的特征。
5.根据权利要求4所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用双向GRU网络获取文本所包含单词的特征。
6.根据权利要求1-5任一项所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,所述通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,具体为,
将图像中的所有区域与文本中的所有单词分别组成区域-单词对,用余弦相似度函数计算其相似度矩阵:
其中fi表示第i个图像区域特征,tj表示第j个文本单词特征;
对相似度矩阵进行归一化,得到注意力分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110160697.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:照明一体化的建筑玻璃栏板
 - 下一篇:利用消防水池的水蓄能系统
 





