[发明专利]一种跨媒体检索方法有效

申请号：	201610544156.5	申请日：	2016-07-11
公开（公告）号：	CN106202413B	公开（公告）日：	2018-11-20
发明（设计）人：	王文敏;韩梁;范梦迪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文	申请（专利权）人：	北京大学深圳研究生院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京万象新悦知识产权代理事务所(普通合伙) 11360	代理人：	黄凤茹
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种新的跨媒体检索方法，利用VGG提出的卷积神经网络VGG net提取图像特征，将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征作为图像特征；利用基于Word2vec的Fisher Vector提取文本特征，通过逻辑回归的方法对异构图像、文本特征进行语义匹配，通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联，从而实现跨媒体检索；本发明的特征提取方法能有效地表示图像和文本的深层语义，可提高跨媒体检索的准确度，从而大幅度提升跨媒体检索效果。
搜索关键词：	一种媒体检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种跨媒体检索方法，利用VGG提出的卷积神经网络提取图像特征，利用基于Word2vec的Fisher Vector提取文本特征，通过逻辑回归的方法对异构图像特征和文本特征进行语义匹配，从而实现跨媒体检索；包括如下步骤：1)收集含有类别标签的跨媒体检索数据集，设为D＝{D₁，D₂，...，D_n}，n表示数据集的大小；所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型，表示为图像‑文本对D_i，D_i∈D，其中表示图像的原始数据，表示文本的原始数据；类别标签设为L，L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，..，C]，C为类别的数目，l_i表示第i对图像和文本所属的类别；将所述跨媒体检索数据集划分为训练数据和测试数据；2)对于数据集D中的所有图像数据D^I，其中使用VGG卷积神经网络方法提取得到图像特征，将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征，记作I＝{I₁，I₂，...，I_n}，其中I_j∈R⁴⁰⁹⁶，j∈[1，n]，作为图像特征；3)对于数据集中的文本特征数据D^T，其中使用基于Word2vec的Fisher Vector方法提取文本特征；具体包括如下过程：31)将原始文本数据D^T，其中转换成词向量集合W＝{W₁，W₂，...，W_n}，W为D^T包含的单词的词向量集合；32)将单词记作w，单词w所对应的词向量为f_word2vec(w)；对于有f_word2vec(w)∈W_i，i∈[1，n]，即其中w_i，j∈R^dw，j∈[1，b_i]，w_i，j为包含单词所对应的词向量，dw为词向量的维度，b_i为中包含的单词个数；33)用X＝{x1，x2，...，xnw}表示一个文本的词向量集合，nw为词向量个数；令混合高斯模型GMM的参数为λ，λ＝{ωi，μi，∑i，i＝1..G}，其中ωi，μi，∑i分别表示混合高斯模型GMM中每个高斯函数的权重、均值向量和协方差矩阵，G表示混合高斯模型GMM中高斯函数的个数；GMM函数定义为式1：其中，p(xt|λ)表示对于向量xt(t∈[1，nw])，由GMM产生的概率值，表示为式2：对权重ωi设置总和为1约束，表示为式3：其中，pi(x|λ)表示GMM中的第i个高斯函数，由式4给出：其中，dw是向量的维度，|∑i|表示求∑i的行列式；用γt(i)来表示向量xt由第i个高斯函数产生的概率，表示为式5：34)对混合高斯模型GMM的参数求偏导即得到Fisher Vector；所述Fisher Vector是将所有参数的求导结果连接组成的向量；所述混合高斯模型GMM中高斯函数个数为G，向量维度为dw，所述Fisher Vector的维度为(2×dw+1)×G‑1；权重ω的自由度为G‑1；35)将W＝{W₁，W₂，...，W_n}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X，求得每个文本的FisherVector，记作T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G‑1}，i∈[1，n]，其中，T_i表示由第i个文本计算出来的Fisher Vector；4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练，将文本特征T转换成了文本语义特征Π^T，i∈[1，n]，c是类别的个数，也是文本语义特征的维数；将图像特征I_i转换成后验概率组成的语义特征，后验概率为k∈[1，C]，表示图像Ii属于类别k的概率；5)利用步骤4)训练好的语义匹配模型，使用步骤2)和步骤3)得到的测试数据的图像特征和文本特征，针对一幅图片或文本进行测试，得到相关的文本或图片，即为跨媒体检索结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院，未经北京大学深圳研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610544156.5/，转载请声明来源钻瓜专利网。

上一篇：一种基于大容量光盘库的文件系统及文件存储方法和系统
下一篇：资源搜索方法、装置及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种跨媒体检索方法有效

专利文献下载