[发明专利]一种基于协同矩阵分解的跨模态检索方法有效
申请号: | 201810062484.0 | 申请日: | 2018-01-23 |
公开(公告)号: | CN108334574B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 李新卫;荆晓远;吴飞;孙莹 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/33;G06F16/31 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 刘莎 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 矩阵 分解 跨模态 检索 方法 | ||
本发明公开了一种基于协同矩阵分解的跨模态检索方法,同时考虑保持原始空间样本对的局部几何流形结构,使用图正则项加入了模态内与模态间的约束,采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了样本对模态间的相似性,为以文检图和以图检文准确性提供了保障。本发明利用协同矩阵分解技术、哈希函数,同时加入了保持模态内与模态间相似性的图正则化项,提高了以文检图和以图检文的相互检索性能,广泛应用于移动设备、互联网以及电子商务中的图片文本互相检索服务。
技术领域
本发明涉及一种基于协同矩阵分解的跨模态检索方法,具体涉及一种考虑保持原始空间数据的模态内相似性和模态间相似性的图正则化方法,属于图像处理技术领域。
背景技术
随着互联网技术的迅速发展,社会步入了大数据时代,大数据以图像、文本、音频和视频等不同的模态表示,这些不同模态的数据并不是独立的,它们有着本质的联系,如何挖掘出数据之间的关联信息成为了人们关注的热点。
跨模态检索技术作为一种基本的相关技术,在机器学习、计算机视觉和数据挖掘等领域被广泛的应用,比如用文本检索图片和用图片检索文本。然而大数据具有数据量大、维度高以及不同模态数据间的语义鸿沟大等一系列特点,这使得针对大数据的跨模态检索困难重重。为了减轻模态间的差异性,相关学者提出了一系列方法,其中一部分主要关注于潜在子空间学习,比如典型关联分析CCA及其扩展变形;而哈希算法作为一种近似最近邻检索技术,具有存储量小、检索速度快等特点,所以另一部分工作者主要进行哈希算法的研究,典型方法主要有跨视图哈希CVH、媒体间哈希IMH和语义关联最大化的监督多模态哈希。
然而,这些方法具有一定的局限性,检索效果比较低,检索的时间比较长,因此设计更好的算法是相关工作者亟需解决的难题。
发明内容
本发明所要解决的技术问题是提供一种基于协同矩阵分解的跨模态检索方法,考虑了保持原始空间数据的模态内相似性和模态间相似性。本发明不仅提高了以文检图的准确率,还提高了以图检文的识别能力,同时具有检索的速度快等优点。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于协同矩阵分解的跨模态检索方法,包括如下步骤:
步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取,并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集;
步骤2,利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵;
步骤3,将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数,整体目标函数的表达式如下所示:
式中,i,j=1,2,λ1和λ2分别表示图像模态内和文本模态内的平衡系数,X1和X2分别表示训练集中图像特征数据和文本特征数据,U1和U2分别表示X1和X2的基矩阵,V是成对的图像和文本在低维潜在语义空间的共同表示,α为哈希函数学习时的权重系数,h(·)表示哈希函数,γ为图正则化项的加权系数,tr(·)表示矩阵的迹范数,P1和P2分别表示X1和X2利用哈希函数所学习的投影矩阵,L11、L22分别表示图像与图像模态内、文本与文本模态内拉普拉斯矩阵,L12=L21表示图像与文本模态间的拉普拉斯矩阵,I为单位矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810062484.0/2.html,转载请声明来源钻瓜专利网。