[发明专利]一种基于深度语义空间的跨媒体检索方法有效
| 申请号: | 201710230070.X | 申请日: | 2017-04-10 |
| 公开(公告)号: | CN108694200B | 公开(公告)日: | 2019-12-20 |
| 发明(设计)人: | 王文敏;范梦迪;董培磊;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
| 主分类号: | G06F16/40 | 分类号: | G06F16/40;G06N3/04;G06N3/08 |
| 代理公司: | 11360 北京万象新悦知识产权代理有限公司 | 代理人: | 黄凤茹 |
| 地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公布了一种基于深度语义空间的跨媒体检索方法,包括特征生成阶段和语义空间学习阶段;特征生成阶段通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量;利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。与现有方法相比,本发明能够显著提升跨媒体检索性能,具有广阔的应用前景和市场需求。 | ||
| 搜索关键词: | 语义空间 跨媒体检索 特征生成 学习阶段 向量 感知 文本 视觉特征向量 训练集图像 训练集文本 测试图像 神经网络 生成图像 市场需求 网络映射 文本语义 文本主题 语言描述 主题模型 主题信息 三层 同构 图像 融合 挖掘 应用 网络 | ||
【主权项】:
1.一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息,从而实现跨媒体检索;包括特征生成过程和语义空间学习过程,具体包括如下步骤:/n1)获取训练数据、测试数据及数据类别;/n2)特征生成过程,分别对图像和文本提取特征,包括步骤21)~22):/n21)采用卷积神经网络-长短时记忆网络CNN-LSTM,对训练图像及测试图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”;/n具体地,利用现有数据集的训练图像对卷积神经网络CNN进行微调,对训练图像和测试图像提取最后一个1024维的全连接层的输出,作为“CNN视觉特征向量”;“LSTM语言描述向量”的提取方法是:在长短时记忆网络LSTM中,当t等于最后一个时刻N时,元组(C
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710230070.X/,转载请声明来源钻瓜专利网。
- 上一篇:数据同步装置、方法、存储介质及电子设备
- 下一篇:一种实体对齐方法和装置





