[发明专利]一种基于Transformer的细粒度跨模态图文检索的模型在审
申请号: | 202211266439.X | 申请日: | 2022-10-17 |
公开(公告)号: | CN115544294A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 朱媛媛;王佳婧 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/55;G06F40/194;G06N3/04;G06N3/08 |
代理公司: | 北京索邦智慧专利代理有限公司 11879 | 代理人: | 李思奇 |
地址: | 201418 上海市奉贤*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 细粒度 跨模态 图文 检索 模型 | ||
本发明公开了一种基于Transformer的细粒度跨模态图文检索的模型,包括具体步骤如下,使用FasterRCNN提取图像特征,使用BERT提取文本特征,使用一堆TransformerEncoder层构建的,既用于视觉数据管道,也用于文本数据管道,TransformerEncoder以实体的序列或集合作为输入,它可以对这些实体进行推理,而不考虑它们的内在性质。本发明通过为了在将视觉和文本数据通道很好地分开,在图像和句子的底层成分,即图像区域和单词之间进行细粒度匹配,仅在最终比对阶段合并来自两个域的信息,保证了这两个通道的信息丰富性,有能够分别推理图像和文本中元素之间的细粒度关系的图文检索模型,可以进一步降低网络复杂度,这对整个体系结构的稳定性和泛化能力同样具有重要的意义。
技术领域
本发明涉及跨模态图文检索领域,特别涉及一种基于Transformer的细粒度跨模态图文检索的模型。
背景技术
互联网上存在着大量不同模态的数据,比如图像、文本、语音和视频等。当这些不同的模态描绘的是同一件事物时,人们称之为跨模态数据。随着互联网的普及发展,人类开始进入大数据时代,伴随着大规模不同模态的数据的产生与发展,各种各样的模态形式已经成为人类理解世界的主要形式。传统的单模态检索只能在一种模态下对比同种模态数据的相似性,并降序排序输出,无法满足人们多种多样跨模态检索的需求,跨模态可以使人们从多个角度高效获取并了解同一件事物的信息,因此逐渐成为热门的研究方向。本文的主要研究实现的是图像和文本之间的跨模态检索。
图像和文本有着不同的底层特征,图像的底层特征是颜色、纹理、形状等,而文字的底层特征是单词、短语和句子等。不难看出,图像和文本具有不同的表示和分布,图文两个模态的数据特征存在较大的异构鸿沟,无法直接比较两种模态间的相似性。
大多数方法学习联合跨模态嵌入空间(joint cross-modal embedding space)为语义相关的image-text对生成更相近的表示。自深度学习时代以来,跨模态检索的视觉表示一直在改进,从grid-based CNN改进为预训练的对象检测器。与此同时,人们开发了更精细的image-text对齐方法,例如注意机制、迭代匹配以及基于图形的图像特征和文本嵌入之间的关系推理。
这些模型使用标准体系结构来处理图像和文本,例如用于图像处理的基于CNN的模型和用于语言的递归网络。通常通过在分类头之前采用网络激活来从诸如ResNet或VGG的标准图像分类网络中提取图像嵌入。从训练分类任务的CNN网络中提取的描述只能捕获图像的全局总结特征,而忽略了重要的局部细节。为此,最近的工作广泛使用了注意机制,其能够将从特征地图或对象检测器的空间位置提取的每个视觉对象与句子中最感兴趣的部分相关联,反之亦然。
然而,它们对于大规模图像或句子检索仍然非常低效:这些方法的问题是不可能分别提取视觉和文本描述,因为通过交叉注意,特征被串连在一起。因此,如果希望检索与给定查询文本相关的图像,则必须使用函数计算所有相似度,然后按降序对结果分数进行排序。因此很难在几毫秒内从大型数据库中检索图像或句子。
故本发明提出了一种基于Transformer的细粒度跨模态图文检索的模型,通过视觉和文本管道分别转发,只有在架构的最后阶段进行损失计算时才进行融合,从而使可扩展的跨模式信息检索成为可能。同时,这种新颖的架构采用了基于Transformer编码器架构的最先进的自注意力模块,能够找出两种模式中的隐藏关系,从而实现非常有效的细粒度对齐。
发明内容
为解决现有跨模态检索模型检索效率较低,视觉文本通道相互缠绕,本发明提出了一种通过视觉和文本管道分别转发,只有在架构的最后阶段进行损失计算时才进行融合的跨模态检索模型。
为了解决上述技术问题,本发明提供了如下技术方案:
本发明涉及一种基于Transformer的细粒度跨模态图文检索的模型,包括具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211266439.X/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法