[发明专利]一种跨媒体检索方法有效
申请号: | 201610544156.5 | 申请日: | 2016-07-11 |
公开(公告)号: | CN106202413B | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 王文敏;韩梁;范梦迪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种新的跨媒体检索方法,利用VGG提出的卷积神经网络VGG net提取图像特征,将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征作为图像特征;利用基于Word2vec的Fisher Vector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联,从而实现跨媒体检索;本发明的特征提取方法能有效地表示图像和文本的深层语义,可提高跨媒体检索的准确度,从而大幅度提升跨媒体检索效果。 | ||
搜索关键词: | 一种 媒体 检索 方法 | ||
【主权项】:
1.一种跨媒体检索方法,利用VGG提出的卷积神经网络提取图像特征,利用基于Word2vec的Fisher Vector提取文本特征,通过逻辑回归的方法对异构图像特征和文本特征进行语义匹配,从而实现跨媒体检索;包括如下步骤:1)收集含有类别标签的跨媒体检索数据集,设为D={D1,D2,...,Dn},n表示数据集的大小;所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型,表示为图像‑文本对Di,Di∈D,
其中
表示图像的原始数据,
表示文本的原始数据;类别标签设为L,L=[l1,l2,...,ln],其中li∈[1,2,..,C],C为类别的数目,li表示第i对图像和文本所属的类别;将所述跨媒体检索数据集划分为训练数据和测试数据;2)对于数据集D中的所有图像数据DI,其中
使用VGG卷积神经网络方法提取得到图像特征,将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征,记作I={I1,I2,...,In},其中Ij∈R4096,j∈[1,n],作为图像特征;3)对于数据集中的文本特征数据DT,其中
使用基于Word2vec的Fisher Vector方法提取文本特征;具体包括如下过程:31)将原始文本数据DT,其中
转换成词向量集合W={W1,W2,...,Wn},W为DT包含的单词的词向量集合;32)将单词记作w,单词w所对应的词向量为fword2vec(w);对于
有fword2vec(w)∈Wi,i∈[1,n],即
其中wi,j∈Rdw,j∈[1,bi],wi,j为
包含单词所对应的词向量,dw为词向量的维度,bi为
中包含的单词个数;33)用X={x1,x2,...,xnw}表示一个文本的词向量集合,nw为词向量个数;令混合高斯模型GMM的参数为λ,λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分别表示混合高斯模型GMM中每个高斯函数的权重、均值向量和协方差矩阵,G表示混合高斯模型GMM中高斯函数的个数;GMM函数定义为式1:
其中,p(xt|λ)表示对于向量xt(t∈[1,nw]),由GMM产生的概率值,表示为式2:
对权重ωi设置总和为1约束,表示为式3:
其中,pi(x|λ)表示GMM中的第i个高斯函数,由式4给出:
其中,dw是向量的维度,|∑i|表示求∑i的行列式;用γt(i)来表示向量xt由第i个高斯函数产生的概率,表示为式5:
34)对混合高斯模型GMM的参数求偏导即得到Fisher Vector;所述Fisher Vector是将所有参数的求导结果连接组成的向量;所述混合高斯模型GMM中高斯函数个数为G,向量维度为dw,所述Fisher Vector的维度为(2×dw+1)×G‑1;权重ω的自由度为G‑1;35)将W={W1,W2,...,Wn}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X,求得每个文本的FisherVector,记作T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G‑1,i∈[1,n],其中,Ti表示由第i个文本计算出来的Fisher Vector;4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,将文本特征T转换成了文本语义特征ΠT,![]()
i∈[1,n],c是类别的个数,也是文本语义特征的维数;将图像特征Ii转换成后验概率组成的语义特征,后验概率为
k∈[1,C],表示图像Ii属于类别k的概率;5)利用步骤4)训练好的语义匹配模型,使用步骤2)和步骤3)得到的测试数据的图像特征和文本特征,针对一幅图片或文本进行测试,得到相关的文本或图片,即为跨媒体检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610544156.5/,转载请声明来源钻瓜专利网。