[发明专利]一种两级网络的图像文本跨媒体检索方法有效
申请号: | 201910355345.1 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110059217B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 李志欣;凌锋;张灿龙;周韬 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06F16/33 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 两级 网络 图像 文本 媒体 检索 方法 | ||
本发明公开一种两级网络的图像文本跨媒体检索方法,首先通过构建了跨媒体两级网络来探索两级对齐,它分别包含两个用于全局,局部的子网。接着利用训练数据集来对跨媒体两级模型进行训练,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型。最后,利用该训练好的跨媒体两级模型对待检索图像和待检索文本进行相似度检索。实验表明,本发明在跨媒体检索的应用上达到了不错的效果。
技术领域
本发明涉及计算机跨媒体检索领域,具体涉及一种两级网络的图像文本跨媒体检索方法。
背景技术
跨媒体既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息,能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合,只有对这些多模态媒体进行融合分析,才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。本文研究了经典的图像-文本匹配问题,它是图像-句子跨模态检索(即对给定的具有视觉描述的句子进行图像搜索,从图像查询中检索句子)的核心。由于不同模态的特征通常具有不一致的分布和表示,因此需要弥合模态差距,即需要找到方法来评估跨模态的项的语义相似性。
一种简单的学习方法是:建立一个公共子空间,然后将所有数据投影到该空间。比如早期的典型相关分析(Canonical Correlation Analysis,CCA)方法,通过线性函数尽可能的将成对出现的图像和文本数据投影到公共子空间的同一位置。通过改进投影方式以及变换投影空间,CCA方法可以轻易扩展到多种媒体形式的联合分析。主题模型是另外一种常用的表示方法,比如经典的潜在狄里克雷分布(Latent Dirichlet Allocation,LDA)模型。LDA假设不同形式的媒体信息由相同的多个主题生成,于是目标的相似度可以通过指定主题下的生成概率来计算。还有基于图形的方法,通过最大化交叉模态成对项目相关性或项目分类准确性来学习线性投影以生成共同表示。深度神经网络的兴起也很快蔓延到跨媒体信息表达领域。如利用深度学习改进特征提取和度量方式,拉近同类目标距离时拉远不同类间距离,特别是在学习公共子空间时利用非线性相关等等。然而,对于一种模态中的一个项目,可能存在多个具有相同模态的语义上不同的项目,仅简单的通过公共子空间的来匹配表示是远远不够的,还需要更好的网络模型来匹配表示。
发明内容
本发明提供一种两级网络的图像文本跨媒体检索方法,通过交叉模式检索研究的核心是学习到图像和文本较好的语义表示,其中不同形态的项目可以直接相互检索,以实现跨不同模态的灵活检索体验。
为解决上述问题,本发明是通过以下技术方案实现的:
一种两级网络的图像文本跨媒体检索方法,包括如下步骤:
步骤1、构建跨媒体两级模型阶段:
所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络;
步骤2、训练数据集的获取阶段:
步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对;
步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集;
步骤3、跨媒体两级模型进行训练阶段:
步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练;
步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910355345.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序