[发明专利]基于深层主题模型的文本图像多模态检索方法有效
申请号: | 201710739719.0 | 申请日: | 2017-08-25 |
公开(公告)号: | CN107609055B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 陈渤;周翼;王超杰;丛玉来 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/2458;G06F16/35;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深层 主题 模型 文本 图像 多模态 检索 方法 | ||
1.一种基于深层主题模型的文本图像多模态检索方法,其特征在于,对文本和图像的多模态数据进行检索,具体步骤包括如下:
(1)对训练数据和测试数据进行预处理:
(1a)从MIR Flicker数据集任意选取文本和图像形式的25000个带标签的数据,将其中15000个作为训练数据,10000个作为测试数据;
(1b)统计训练数据与测试数据的文本数据中单词重复出现的次数,按照由多到少的次序进行排序,取前2000个单词作为词表,对每个文本,统计出现在词表里的单词次数,保存在一个向量里,向量的每一维上的值表示该文本出现单词的次数;
(1c)提取每幅图像的特征,组成一个以特征维度为行数,图像总数为列数的图像特征矩阵;
(2)初始化深层主题模型的超参数和共享参数;
(3)训练深层主题模型:
(3a)将预处理好的文本数据和图像特征数据输入泊松伽玛置信网络;
(3b)按照下式,更新全局参数:
其中,Kt-1表示泊松伽马置信网络第t-1层隐变量的维度,表示泊松伽玛置信网络第t层的全局参数矩阵中第k列,~表示等价关系符号,—表示右式所有参数符号,|表示条件概率符号,Dir表示狄利克雷分布,η(t)表示第t层的狄利克雷分布的第一参数,表示第j个数据的泊松伽马置信网络第t层的层内增广矩阵中第v行第k列的元素,∑表示求和操作;
(3c)按照下式,计算泊松伽玛置信网络第t层到t+1层间增广矩阵:
其中,m(t)(t+1)表示泊松伽玛置信网络第t层到t+1层的层间增广矩阵;
(3d)通过对顶层参数的后验分布的吉布斯采样更新顶层全局参数;
(3e)通过对隐变量参数的后验分布的吉布斯采样以更新泊松伽马置信网络第t层的隐变量参数
(3f)将泊松伽马置信网络第一层的隐变量作为训练数据中文本数据和图像数据的联合特征;
(4)用联合特征训练分类器:
对从泊松伽马置信网络得到的联合特征做归一化操作,使其均值为0,方差为1,将其输入到一对多分类器one vs all中对其进行训练;
(5)用测试数据进行测试:
(5a)将测试数据输入到泊松伽马置信网络中,得到测试数据中文本数据和图像数据的联合特征;
(5b)将联合特征输入到分类器中,分类器输出与数据对应的每一类概率;
(5c)将分类器输出的对应每一类的概率值从大到小进行排序;
(5d)对前50个概率值进行检索,统计50个概率值对应数据中包含正确数据的个数,计算正确数据个数和检索概率值对应数据个数的比值。
2.根据权利要求1所述的基于深层主题模型的文本图像多模态检索方法,其特征在于,步骤(2)中所述初始化深层主题模型的超参数的值如下:
其中,η(t)表示Φ(t)的先验分布的第一参数,Φ(t)表示泊松伽玛置信网络第t层全局参数矩阵,表示θ(t)的先验分布的第二参数向量,θ(t)表示泊松伽玛置信网络第t层隐变量参数矩阵,Z=1,2,...,J,J表示样本个数,a0表示γ0的先验分布的第一参数,γ0表示r的先验分布的第一参数,Gam表示伽马分布,~表示等价关系,r表示顶层全局参数向量,b0表示γ0的先验分布的第二参数,e0表示c0的先验分布的第一参数,c0表示顶层全局参数r的先验分布的第二参数,f0表示c0的先验分布的第二参数,c(3)表示θ(2)的先验分布的第二参数向量,p(2)表示θ(1)的先验分布的第二参数向量,Beta表示贝塔分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710739719.0/1.html,转载请声明来源钻瓜专利网。