[发明专利]一种基于混合粒度匹配的图文跨模态检索方法有效
申请号: | 202110373838.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113094533B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 盛律;徐东;魏云飞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F40/126;G06F40/194;G06N3/04;G06N3/08 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 粒度 匹配 图文 跨模态 检索 方法 | ||
1.一种基于混合粒度匹配的图文跨模态检索方法,其特征在于,包括:
构建数据库:构建样本数据库,并将所述样本数据库中的样本数据划分为训练集、验证集和测试集;
提取文本:将所述训练集中的文本输入预先构建的文本编码模型进行文本序列编码,得到文本特征;
提取图像:将所述训练集中的图片输入预训练的图像特征提取模型,提取得到图像区域特征;
构建模型:构建跨模态匹配模型,并分别将所述文本特征和所述图像区域特征输入所述跨模态匹配模型进行训练,输出匹配分数;所述跨模态匹配模型包括图像多跳图神经网络、文本多跳图神经网络、跨模态注意力机制、视觉侧近邻信息敏感匹配模块以及文本侧近邻信息敏感匹配模块;
所述图像多跳图神经网络的输入端与所述图像特征提取模型连接,所述文本多跳图神经网络的输入端与所述文本编码模型连接,所述图像多跳图神经网络的输出端和所述文本多跳图神经网络的输出端均与所述跨模态注意力机制的输入端连接,所述跨模态注意力机制的输出端分别与所述视觉侧近邻信息敏感匹配模块和所述文本侧近邻信息敏感匹配模块连接;
所述构建模型步骤中,将所述文本特征和所述图像区域特征输入所述跨模态匹配模型进行训练,输出匹配分数的过程具体包括:
将所述图像区域特征输入所述图像多跳图神经网络,获得相应的图像混合粒度表达,并将所述文本特征输入所述文本多跳图神经网络,获得相应的文本混合粒度表达;
通过所述跨模态注意力机制将所述图像混合粒度表达和所述文本混合粒度表达分别映射到对方的空间,得到图像映射表示和文本映射表示;
将所述图像区域特征和所述文本映射表示输入所述视觉侧近邻信息敏感匹配模块,计算得到视觉侧匹配分数,并将所述文本特征和所述图像映射表示输入所述文本侧近邻信息敏感匹配模块,计算得到文本侧匹配分数;
将所述视觉侧匹配分数和所述文本侧匹配分数相加,得到最终的匹配分数;
验证模型:通过所述验证集对训练好的所述跨模态匹配模型进行验证,并提取最优模型;
评估模型:通过所述测试集对所述最优模型进行测试,并对所述最优模型的检索精度进行评估;
图文检索:利用测试和评估后的最优模型进行图文跨模态检索。
2.根据权利要求1所述的一种基于混合粒度匹配的图文跨模态检索方法,其特征在于,所述验证模型步骤执行之前,还包括:
优化模型:计算跨模态匹配模型训练过程的损失,并对所述文本编码模型和所述跨模态匹配模型进行优化。
3.根据权利要求2所述的一种基于混合粒度匹配的图文跨模态检索方法,其特征在于,所述跨模态匹配模型训练过程的损失通过三元组损失函数计算得到,计算公式为:
式中,m为预设的三元组损失函数的边界值,S(V,T)为匹配的图像和文本的相似度分数,S(V,T')和S(V',T)分别为图像到文本方向和文本到图像方向的不匹配的图像和文本的相似度分数,[·]+表示取括号内的值与0之间的最大值,V为图像特征,T为与之匹配的文本特征,T'表示与V不匹配的文本特征,V'表示与T不匹配的图像特征。
4.根据权利要求1所述的一种基于混合粒度匹配的图文跨模态检索方法,其特征在于,所述图像映射表示的计算公式为:
式中,V*为图像映射表示,为图像多跳图神经网络输出的图像混合粒度表达,M为注意力映射矩阵;
所述文本映射表示的计算公式为:
式中,T*为文本映射表示,为文本多跳图神经网络输出的文本混合粒度表达,MT为注意力映射矩阵的转置。
5.根据权利要求4所述的一种基于混合粒度匹配的图文跨模态检索方法,其特征在于,所述注意力映射矩阵具体为:
式中,M为注意力映射矩阵,为文本多跳图神经网络输出的文本混合粒度表达,为图像多跳图神经网络输出的图像混合粒度表达,Wt和Wv分别为线性映射矩阵,d为文本多跳图神经网络和图像多跳图神经网络输出的文本混合粒度表达和图像混合粒度表达的维度。
6.根据权利要求1所述的一种基于混合粒度匹配的图文跨模态检索方法,其特征在于,所述图文检索步骤,具体包括:
将待查询的图片或文本分别进行特征提取后输入测试和评估后的最优模型,输出另一模态对应的文本或图片的匹配分数;
将得到的文本或图片的匹配分数按照从大到小的顺序进行排序,并将文本或图片对应的原始内容和匹配分数按照排序顺序输出,得到检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110373838.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:像素驱动电路及显示面板
- 下一篇:一种通信管线自动测高平衡装置