[发明专利]一种基于深度语义空间的跨媒体检索方法有效
| 申请号: | 201710230070.X | 申请日: | 2017-04-10 |
| 公开(公告)号: | CN108694200B | 公开(公告)日: | 2019-12-20 |
| 发明(设计)人: | 王文敏;范梦迪;董培磊;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
| 主分类号: | G06F16/40 | 分类号: | G06F16/40;G06N3/04;G06N3/08 |
| 代理公司: | 11360 北京万象新悦知识产权代理有限公司 | 代理人: | 黄凤茹 |
| 地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义空间 跨媒体检索 特征生成 学习阶段 向量 感知 文本 视觉特征向量 训练集图像 训练集文本 测试图像 神经网络 生成图像 市场需求 网络映射 文本语义 文本主题 语言描述 主题模型 主题信息 三层 同构 图像 融合 挖掘 应用 网络 | ||
本发明公布了一种基于深度语义空间的跨媒体检索方法,包括特征生成阶段和语义空间学习阶段;特征生成阶段通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量;利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。与现有方法相比,本发明能够显著提升跨媒体检索性能,具有广阔的应用前景和市场需求。
技术领域
本发明属于信息技术领域,涉及模式识别、多媒体检索技术,具体涉及一种基于深度语义空间的跨媒体检索方法。
背景技术
随着互联网的发展和使用,多媒体数据(如图像、文本、音频、视频)呈现爆发式增长,这些不同形式的数据通常共同出现来描述同一物体或场景。为了方便管理多样的多媒体内容,我们日益需要在不同媒体间实现灵活的检索方式。
近年来,跨媒体检索得到了广泛的关注。跨媒体检索目前所面临的挑战主要在于不同模态特征之间存在的异构性和不可比性。为解决这一难题,许多方法将异构的特征映射到同构的空间以跨越“语义鸿沟”。但是,现有方法忽略了底层视觉特征和高层用户概念间的“感知鸿沟”,即人对一个物体的概念的感知往往综合他的视觉信息和语言信息统一进行表达,无法建立底层视觉特征和高层用户概念之间的关联;在所得的同构空间中,图像和文本的语义信息表达有所缺失。因此,现有方法在图像检索文本和文本检索图像中的正确率不高,跨媒体检索性能较低,难以满足应用需求。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息,通过特征生成过程和语义空间学习过程实现跨媒体检索,能够显著提升跨媒体检索的性能。
为方便起见,本发明约定如下术语定义:
CNN:Convolutional Neural Network,卷积神经网络;LSTM:Long Short TermMemory,长短时记忆网络;本发明在特征生成过程中提取相应位置的“CNN视觉特征向量”和“LSTM语言描述向量”;
LDA:Latent Dirichlet Allocation,隐含狄利克雷分布,是一个文档主题生成模型;
MSF-DNN:Multi-Sensory Fusion Deep Neural Network,本发明针对图像提出的多感知融合的深度神经网络;
TextNet:本发明提出的文本语义网络。
本发明的核心是:本发明提供的跨媒体检索方法包括特征生成过程和语义空间学习过程,考虑到人对一个物体的概念的感知往往综合他的视觉信息和语言信息统一进行表达,通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息,在特征生成阶段,通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量。利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。
本发明提供的技术方案是:
一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息,从而实现跨媒体检索;包括特征生成过程和语义空间学习过程,具体包括如下步骤:
1)获取训练数据、测试数据及数据类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710230070.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据同步装置、方法、存储介质及电子设备
- 下一篇:一种实体对齐方法和装置





