[发明专利]一种层次化对齐的图像文本检索方法在审
| 申请号: | 202210968147.4 | 申请日: | 2022-08-12 |
| 公开(公告)号: | CN115344735A | 公开(公告)日: | 2022-11-15 |
| 发明(设计)人: | 杨阳;宾燚;李灏轩;史文浩 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/33;G06V10/44;G06V10/74 |
| 代理公司: | 成都行之智信知识产权代理有限公司 51256 | 代理人: | 温利平 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 层次 对齐 图像 文本 检索 方法 | ||
本发明公开了一种层次化对齐的图像文本检索方法,采用了统一的Transformer架构来提取与学习图像与文本特征,并且引入一个分层对齐策略,在Transformer的不同层次捕捉更多,更丰富的语义信息。因此图像文本均采用统一的Transformer模型,且层次性充分的利用了Transformer结构所得到的模态特征,所以最终通过统一的模型架构得到了兼容性更好的表征,完成了更好的语义对齐,实现图像文本检索。
技术领域
本发明属于跨模态检索技术领域,更为具体地讲,是一种层次化对齐的图像文本检索方法。
背景技术
跨模态检索任务是多模态领域的基本任务和常见任务之一,其目标是通过一个模态的样本能够准确检索到另一个模态所对应的样本。这里研究最重要且最普遍的两种模态,即视觉信息与文本数据间的检索任务。
现有的跨模态检索方法,可以分为全局对齐方法与局部对齐方法。全局对齐方法是通过将图像与文本整体映射到一个统一的语义空间以进行度量来探索其相关性。通常使用CNN(Convolutional Neural Network)卷积神经网络来进行图像特征的提取,RNN(Recurrent Neural Network)循环神经网络来进行文本特征的提取。但是这样的方法忽略了图像区域与文本单词间的局部线索。因此,局部对齐方法被提出,其通过提取图像文本的局部特征来进行建模,以完成图像文本间的对齐。通常使用Faster RCNN(快速区域卷积神经网络)进行图像区域特征的提取,Bi-GRU(Bi-Gate Recurrent Unit)双向门控循环单元等RNN进行文本单词的提取。尽管局部对齐的跨模态检索方法能够有效的利用图像区域与文本单词间的细微线索,进一步完成更好的图像文本间的对齐。但无论是局部对齐,还是全局对齐,其在进行特征提取时,对于不同模态所采用的架构都是不相同的。即对于图像数据,采用具有多尺度,局部性和平移不变性等与图像相关的归纳偏置的卷积神经网络来进行特征信息的提取,而对于文本数据,则采用具有时序性等与语言相关的归纳偏置的循环神经网络来进行特征信息的提取。这样的特征提取方式虽然各自符合其所对应模态信息的特性,但在跨模态检索任务中,其关键在于对于公共空间的建模与度量。因此,不同的模型架构会造成两点不足,(1)不同的架构可能会引起不同的语义分布空间,使得最终学习到的表征在语义映射和相似性测量中不太兼容。(2)通过不同架构进行特征提取,无法进行全方面的,从浅入深的提取所需信息。捕捉不到不同语义层次的对应关系。
发明内容
本发明的目的在于克服现有技术的不足,提供一种层次化对齐的图像文本检索方法。具体为采用一个统一的结构,层次性充分的利用了Transformer(深度自注意力转换模型)结构所得到的模态特征,从而得到了兼容性更好的表征,完成了更好的语义对齐。
为实现上述发明目的,本发明一种层次化对齐的图像文本检索方法,其特征在于,包括以下步骤:
(1)、建立检索库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本Tt组成文本集合,最后将图像I及对应文本集合作为检索库,其中,t表示第t个文本;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
将12个Transformer模块组成Swin-Transformer(移动窗口Transformer)模型,12个Transformer模块划分为低、中、高3个阶段,Swin-Transformer模型预训练完成后对图像I进行图像区域的特征提取,得到低、中、高3个阶段的特征输出图,分别记为Vlow,Vmiddle,Vhigh,从而将分层特征Vh表示为:
Vh={Vlow,Vmiddle,Vhigh}
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210968147.4/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





