[发明专利]一种基于受控语义嵌入的跨模态哈希检索方法有效
| 申请号: | 202110140102.3 | 申请日: | 2021-02-02 |
| 公开(公告)号: | CN112948601B | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 孟敏;杨榕;武继刚 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06F16/41 | 分类号: | G06F16/41;G06F16/43;G06F16/48;G06F18/214 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
| 地址: | 510090 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 受控 语义 嵌入 跨模态哈希 检索 方法 | ||
本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,涉及跨模态信息检索的技术领域,解决了现有跨模态哈希检索方法无法实现公共子空间的语义解耦合的问题,首先确定带标签的多模态数据库;训练标签网络;对数据库中的每一种模态训练一个受控语义嵌入网络;根据数据库所有样本对应的标签,通过标签网络映射成语义向量,通过量化方法成二进制编码;查询阶段根据带标签的查询样本对应模态的受控语义嵌入网络映射成语义向量,计算查询样本的语义向量和数据库所有样本的二进制编码的非对称量化距离,按照从大到小排序返回检索结果;本发明能以可解释的方式学习具有受控语义结构的高度分离的公共语义向量,提高跨模态检索精度。
技术领域
本发明涉及跨模态信息检索的技术领域,更具体地,涉及一种基于受控语义嵌入的跨模态哈希检索方法。
背景技术
随着互联网时代的到来,越来越多人将自己的多媒体数据(如,图片、文本、视频、音频等)上传到网络上的数据库中进行存储,简单的将多媒体数据存储起来并不能产生经济效益,使得人们对跨不同模态数据的高效索引和检索产生了强烈的需求(如,听歌识曲、拍照搜货、截图搜电影等)。跨模态检索的定义是在不同的模态之间能够根据语义相似性进行检索的方式,可以解决上述问题。然而,跨模态检索本质上是一种排序问题:根据根据给定的查询样本,数据库中所有样本按照和查询样本的语义相似性进行排序,按照从大到小返回检索结果。在庞大的数据库中执行排序在效率上是不能被接受的,所以,为了解决多媒体数据在爆炸式增长的同时高效检索的问题,哈希作为跨模态检索的一个有希望的解决方案被应用。哈希指的是将数据库映射成二进制编码,利用哈希码的高效和低存储,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,实现高效检索。
建立跨模态检索的一个常见假设是一些信息在不同的模式之间共享。因此,跨模态获取丰富而有用的信息至关重要。然而,现有的监督方法都存在一个共同的缺陷,即没有合理地利用实例的语义信息,都是简单直接地将不同模态的特征表示映射到公共子空间中,在公共子空间中学习到的公共子空间表示高度纠缠。不同模式下的实例在其特征表示和分布上具有内在的异质性,这是发现跨模态关联的主要瓶颈。若未学习可解释的表示方法,现有的方法就无法弥合不同模态之间的差距。此外,现有的哈希方法在不考虑表示的可量化性的情况下,无法将量化误差最小化以生成高质量的二进制码。因此,提高潜在表示的可解释性和可量化性,以获得更准确的语义关联,生成更具区分性的哈希码具有重要意义。
当前,研究人员已经提出一些深度的有监督跨模态哈希检索方法,例如2019年,在计算机顶级会议Proceedings of the 27th{ACM}International Conference onMultimedia上的一篇文章《Separated Variational Hashing Networks for Cross-ModalRetrieval》中使用了条件变分自编码生成网络结合标签自监督语义网络,在一定程度上提高了检索精度,但由于该方法是标签自监督语义网络预先学习到语义空间特征表示的哈希码,然后使用变分子编码生成网络将其他模态的信息独立地映射到语义空间,该方法并没有对映射到语义空间的信息进行控制(例如图片模态蕴含的信息要比文本模态更多,不加以控制的映射到语义空间会使得其特征表示和分布上具有内在的异质性,丢失检索精度),因此,检索精度仍有待提高。
发明内容
为解决现有跨模态哈希检索方法无法实现公共子空间的语义解耦合的问题,导致检索精度低的后果,本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,能够以可解释的方式学习具有受控语义结构的高度分离的表示,提高跨模态检索精度。
为了达到上述技术效果,本发明的技术方案如下:
一种基于受控语义嵌入的跨模态哈希检索方法,至少包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;
S2.训练一个标签网络表示标签网络的网络参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110140102.3/2.html,转载请声明来源钻瓜专利网。





