[发明专利]基于语义增强的跨模态检索方法及装置、存储介质和终端有效
| 申请号: | 202210376785.7 | 申请日: | 2022-04-06 |
| 公开(公告)号: | CN114780777B | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 黄俊;潘浩;魏鑫燏;朱智聪 | 申请(专利权)人: | 中国科学院上海高等研究院 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06F40/30;G06V10/74;G06K9/62 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 刘逸潇 |
| 地址: | 201210 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 增强 跨模态 检索 方法 装置 存储 介质 终端 | ||
1.一种基于语义增强的跨模态检索方法,包括:
构建跨模态检索模型,并基于图文检索数据训练集对所述跨模态检索模型进行训练以获取训练后的跨模态检索模型;
确定目标查询数据和目标检索数据库中的目标模态数据集,基于所述训练后的跨模态检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体语义相似度;
在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个数的所述整体语义相似度对应的所述目标模态数据,并将预设个数的目标模态数据按对应所述整体语义相似度从大到小的顺序作为检索结果;
其中,所述图文检索数据训练集包括多个图像模态数据和多个文本模态数据,所述目标查询数据的模态与所述目标模态数据集中目标模态数据的模态不同;
所述跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元,所述特征提取单元包括图像特征提取子单元和文本特征提取子单元,所述语义增强单元包括图像语义增强子单元和文本语义增强子单元;
所述图像特征提取子单元,用于对图像模态数据进行特征提取,以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义;
所述文本特征提取子单元,用于对文本模态数据进行特征提取,以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义;
所述图像语义增强子单元,用于将所述图像关系语义集成到所述图像区域特征上,以获取所述图像模态数据的关系语义增强的图像特征,并将所述图像属性语义集成到所述图像区域特征上,以获取所述图像模态数据的属性语义增强的图像特征;
所述文本语义增强子单元,用于将所述文本关系语义集成到所述文本单词特征上,以获取所述文本模态数据的关系语义增强的文本特征,并将所述文本属性语义集成到所述文本单词特征上,以获取所述文本模态数据的属性语义增强的文本特征;
所述细粒度跨模态对齐单元,用于将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐,以获取对应的关系层表示,并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐,以获取对应的属性层表示;
所述语义相似度单元,用于基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示,获取对应的图像模态数据和文本模态数据之间的整体语义相似度,或基于所述文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示,获取对应的图像模态数据和文本模态数据之间的整体语义相似度。
2.根据权利要求1所述的检索方法,其特征在于,所述图像特征提取子单元对图像模态数据进行特征提取,以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义过程包括:
通过目标检测器提取所述图像模态数据中的区域目标特征和区域位置特征,并将所述区域目标特征通过全连接层映射为所述图像模态数据的图像区域特征;
基于所述区域位置特征建立所述区域目标特征中所有图像区域之间的相对位置关系,并将所述相对位置关系通过全连接层和激活函数映射为所述图像模态数据的隐式关系语义;
通过场景图模型将所述图像模态数据解析为图结构,所述图结构包括边特征和节点特征,所述图结构的边特征通过词编码矩阵映射为边关系向量,所述边关系向量即为所述图像模态数据的显式关系语义;
通过属性检测器预测所述图像模态数据的图像类别和图像属性,并将所述图像类别和所述图像属性通过词编码矩阵分别映射为类别向量和属性向量,将所述类别向量和所述属性向量进行拼接以获取拼接向量,并将所述拼接向量通过所述全连接层映射为图像属性语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海高等研究院,未经中国科学院上海高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210376785.7/1.html,转载请声明来源钻瓜专利网。





