[发明专利]一种基于深度语义空间的跨媒体检索方法有效
| 申请号: | 201710230070.X | 申请日: | 2017-04-10 |
| 公开(公告)号: | CN108694200B | 公开(公告)日: | 2019-12-20 |
| 发明(设计)人: | 王文敏;范梦迪;董培磊;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
| 主分类号: | G06F16/40 | 分类号: | G06F16/40;G06N3/04;G06N3/08 |
| 代理公司: | 11360 北京万象新悦知识产权代理有限公司 | 代理人: | 黄凤茹 |
| 地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义空间 跨媒体检索 特征生成 学习阶段 向量 感知 文本 视觉特征向量 训练集图像 训练集文本 测试图像 神经网络 生成图像 市场需求 网络映射 文本语义 文本主题 语言描述 主题模型 主题信息 三层 同构 图像 融合 挖掘 应用 网络 | ||
1.一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息,从而实现跨媒体检索;包括特征生成过程和语义空间学习过程,具体包括如下步骤:
1)获取训练数据、测试数据及数据类别;
2)特征生成过程,分别对图像和文本提取特征,包括步骤21)~22):
21)采用卷积神经网络-长短时记忆网络CNN-LSTM,对训练图像及测试图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”;
具体地,利用现有数据集的训练图像对卷积神经网络CNN进行微调,对训练图像和测试图像提取最后一个1024维的全连接层的输出,作为“CNN视觉特征向量”;“LSTM语言描述向量”的提取方法是:在长短时记忆网络LSTM中,当t等于最后一个时刻N时,元组(CN,hN)被提取用作训练图像和测试图像的“LSTM语言描述向量”;
针对N幅图像,得到每幅图像的特征{CNN视觉特征向量,LSTM语言描述向量,真实标签值ground-truth label},表示为l表示所述卷积神经网络的第l层,l≥2;
22)利用文档主题生成模型LDA,提取训练文本和测试文本的“LDA文本主题向量”;针对N个训练文本,提取得到每个样本的“LDA文本主题向量”,表示为t;
3)语义空间学习过程,包括图像的语义空间学习过程和文本的语义空间学习过程,分别将图像和文本映射到一个共同的语义空间;
31)图像的语义空间学习过程:构建一个四层的多感知融合的深度神经网络MSF-DNN,进行语义空间学习,得到一个参数空间表示权重矩阵,表示偏置,l表示层数;
32)文本的语义空间学习过程:构建一个三层的文本语义网络TextNet,进行语义空间学习,得到一个参数空间表示权重矩阵;表示偏置;l′表示TextNet的层数;
由此通过MSF-DNN及TextNet,实现将图像和文本映射到同构的语义空间;
4)通过相似度衡量方法,计算任一图像和文本之间的相似度,进而实现图像检索文本和文本检索图像的跨媒体检索。
2.如权利要求1所述跨媒体检索方法,其特征是,步骤1)具体通过数据集Wikipedia、Pascal Voc、Pascal Sentence得到训练数据、测试数据和数据类别。
3.如权利要求1所述跨媒体检索方法,其特征是,步骤22)分别针对数据集Wikipedia、Pascal Voc、Pascal Sentence数据集,确定最优主题数目分别为200、100、200。
4.如权利要求1所述跨媒体检索方法,其特征是,步骤31)所述图像的语义空间学习过程具体包括如下步骤:
311)针对N幅训练图片,经过步骤21)生成特征,得到每幅图片的特征,表示为l表示所述神经网络的第l层,l≥2;令xj表示第l-1层的输入向量,l层第i个激活前的值表示为式1:
其中,m为l-1层单元的数目;表示第l-1层第j个单元和第l层第i个单元之间的权重;表示与第l层第i个单元关联的权重;
312)通过公式2计算得到每个z的激活值所有隐藏层的激活函数使用Sigmoid函数,最后的输出层使用Softmax函数激活:
其中,l表示层数,K为标签数,ε=max(zk);
313)定义MSF-DNN网络为式3-式6:
其中,表示深度为l的隐藏层,oI表示最后一层输出层;表示权重矩阵;表示偏置;当l=1时,A=v or d,否则A=c;c表示v和d两者融合之后的输出;
314)目标函数是最小化训练样本的整体误差C,以学习得到一个参数空间表示为式7:
其中,λI为第二项权重衰减项的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710230070.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据同步装置、方法、存储介质及电子设备
- 下一篇:一种实体对齐方法和装置





