[发明专利]基于协同矩阵分解的离散监督跨媒体哈希检索方法在审
申请号: | 201910375983.X | 申请日: | 2019-05-07 |
公开(公告)号: | CN110110100A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 姚涛;唐文静;李阿莉;付海燕;盛国瑞;于泓;刘莉 | 申请(专利权)人: | 鲁东大学 |
主分类号: | G06F16/432 | 分类号: | G06F16/432;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 264025 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 矩阵分解 哈希码 跨媒体检索 汉明距离 检索样本 协同 训练集 哈希 检索 低维特征空间 哈希函数生成 测试 查询 语义 测试样本 哈希函数 检索结果 降序排列 类别标签 旋转矩阵 训练过程 语义关联 占用资源 测试集 准确率 低维 构建 模态 异构 正交 学习 嵌入 投影 数据库 监督 返回 应用 | ||
本发明涉及一种基于协同矩阵分解的离散监督跨媒体哈希检索方法,包括以下步骤:1)建立跨媒体检索数据库,并将样本对划分为训练集和测试集;2)提取训练集和测试集中所有样本对的特征,并进行去均值;3)分别利用协同矩阵分解和语义嵌入把样本的特征和类别标签投影到低维特征空间和哈希码,并学习一个正交旋转矩阵构建低维特征和哈希码的语义关联,同时为各模态学习哈希函数;5)利用学习的哈希函数生成测试样本的哈希码;6)把训练集中的样本作为待检索样本,把测试集中样本作为查询样本,计算查询样本与待检索样本的汉明距离;7)按汉明距离降序排列,返回前r个异构样本作为检索结果。本发明不仅可实现跨媒体检索,而且训练过程占用资源少、准确率高,具有广阔的应用前景。
技术领域
本发明涉及多媒体检索和人工智能领域,尤其是一种基于协同矩阵分解的离散监督跨媒体哈希检索方法。
背景技术
随着网络上数据量的快速增长,如何在大规模数据中检索语义相似的样本成为一个挑战。一方面,由于过高的时间复杂度和存储开销,使传统的最近邻检索方法很难直接应用于大规模数据。另一方面,网络上样本的媒体类型呈现多样性,如何实现跨越媒体类型间的鸿沟实现异构样本间相似性的度量成为一个挑战。跨媒体哈希将异构样本的高维特征映射到一个共享低维汉明空间,实现异构样本的相似性的度量,由于其高效性和有效性得到了研究者的广泛关注。
跨媒体哈希根据在训练过程是否利用样本的类别标签,分为无监督和监督跨媒体哈希方法。无监督跨媒体哈希方法一般利用保持样本基于特征的相似性为各类型媒体学习哈希函数。然而,底层特征的语义表征能力有限,造成哈希码的质量不高,通常无监督方法难以取得令人满意检索的性能。监督跨媒体哈希方法利用样本的类别标签提升哈希码的表征能力,获得了更好检索性能。
大部分监督跨媒体哈希方法首先构造一个两两样本间相似矩阵,然后利用此矩阵学习哈希码。但是此类方法存在以下两个问题:1)利用标签构造两两样本间相似矩阵会造成类别信息的丢失;2)两两样本间相似矩阵的尺寸为的,然而在大规模应用中,的值非常大,因此会带来过高的内存开销和计算复杂度,使其失去扩展能力。另一方面,对于哈希算法而言,如何在哈希码中更好的保持样本的语义相似性是一个关键问题。大多数现有方法只保持基于类别标签的语义相似性学习哈希码,然而由于异构样本间语义关联非常复杂,许多含有相同类别标签的异构样本很难映射成相似的汉明的码。另外由于哈希码的离散约束造成哈希方法的目标函数难以直接求解。针对以上问题,本发明方法提出一种基于协同矩阵分解的离散监督跨媒体检索方法。具体而言,首先分别利用协同矩阵分解和语义嵌入把样本的特征和类别标签投影到一个低维共享特征空间和哈希码。然后学习一个正交旋转矩阵构建低维特征和哈希码的语义关联,因此在哈希码中即保持了基于样本特征的相似性又保持了基于样本类别标签的一致性,提升了哈希码的表征能力。最后,本发明提出一种快速优化方法,使其内存开销和计算复杂度为。
发明内容
本发明的目的是克服现有技术缺陷,提供一种基于协同矩阵分解的离散跨媒体哈希检索方法,其特征在于,该方法包括以下步骤:
步骤S1,收集图像和文本样本并对其进行类别标注,生成跨模态检索数据集,并将所有样本对按一定比例划分为训练集和测试集;
步骤S2,提取数据集中所有图像和文本样本的特征,并对其进行去均值;
步骤S3,利用训练集中的图像、文本样本的特征及其类别标签构建目标函数,表示所有训练样本的特征,其中,表示所有训练图像样本的特征,其中为图像特征的维度,为图像和文本样本对的数量,表示所有训练文本样本的特征,其中为文本特征的维度;表示样本对的类标签,其中为所有类别的数量,如果第个样本属于第类,则;反之,;具体包括以下步骤:
步骤S31,由于异构样本间的语义关联非常复杂,因此首先利用协同矩阵分解,保持样本的模态间相似性学习一个共享子空间,此过程的目标函数定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁东大学,未经鲁东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910375983.X/2.html,转载请声明来源钻瓜专利网。