[发明专利]基于三元组深度网络的跨模态哈希检索方法有效
申请号: | 201711402277.7 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108170755B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 邓成;陈兆佳;李超;杨二昆;杨延华 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/35;G06K9/62;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 韦全生;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 三元 深度 网络 跨模态哈希 检索 方法 | ||
本发明提出了一种基于三元组深度网络的跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精率低的技术问题。实现步骤为:对数据进行预处理,将数据分成训练数据和查询数据;获取图像训练数据和文本训练数据的哈希码;采用三元组监督信息建立目标损失函数;对目标损失函数进行顺序迭代优化;计算图像查询数据和文本查询数据的哈希码;获取查询数据的检索结果。本发明提供的方案采用三元组信息构建目标损失函数,增加语义信息,同时加入模态内的损失函数,增加方法的判别性,能够有效地提高跨模态检索的精度。本发明可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。
技术领域
本发明属于计算机视觉技术领域,涉及大规模的图像数据和文本数据之间的互相检索,具体是一种基于三元组深度网络的跨模态哈希检索方法,可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。
背景技术
随着互联网技术和社交网站的飞速发展,每天都会产生海量的多媒体数据,比如文本,图像,视频和音频等,实现跨模态数据之间的互相检索已经成为信息检索领域中的研究热点。哈希方法法是一种非常有效的信息检索方法,具有低耗内存和快速检索的优点。哈希方法可以分成单模态哈希方法,多模态哈希方法和跨模态哈希方法。单模态哈希方法的查询数据和检索结果属于同一模态,数据特征来自同构特征空间。多模态哈希方法的查询数据和检索结果属于同一模态,数据特征来自异质特征空间。跨模态哈希方法的查询数据和检索结果属于不同模态,数据特征来自异质特征空间。跨模态哈希检索方法的核心思想是将不同模态的数据投影到一个通用的汉明空间,在这个空间中得到不同模态数据的哈希码,其中哈希码之间的汉明距离与原始数据之间的语义相似性相对应,然后通过计算哈希码之间的汉明距离返回检索结果。跨模态哈希方法可以分为无监督方法和有监督方法,无监督跨模态哈希方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码,而有监督跨模态哈希方法旨在利用训练数据类标信息的语义相似性,来提高哈希检索的检索精度。浅层的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程分开,导致两个过程不能很好的兼容。而深度的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中,提取多层抽象特征并能有效地捕捉不同模态数据之间的异质关联,提高检索精度。跨模态哈希检索技术的关键在于对不同模态数据的关系进行建模,难点就是跨越语义鸿沟,所以如何设计高精度的跨模态哈希检索方法是现阶段亟待解决的问题。当前,研究人员已经提出一些深度的有监督跨模态哈希检索方法。
例如Qing-Yuan Jiang和Wu-Jun Li在2017年的Computer Vision and PatternRecognition会议中发表了名为“Deep Cross-Modal Hashing”的文章,公开了一种基于深度学习的跨模态哈希检索方法,文中提出将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中,实现两个过程的兼容,提高检索精度。由于该方法使用成对监督信息建立目标损失函数,仅描述两个数据之间的成对关系缺乏丰富的语义信息,而且该方法只考虑模态间的相似性而忽略了模态内的相似性,检索精度还有待提高。
发明内容
本发明的目的在于针对上述已有技术的不足,提出基于三元组深度网络的跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精度低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)对数据进行预处理:
确定两种模态的数据:图像数据和文本数据,提取文本数据的Bag-of-words特征,保留图像数据的原始像素特征,并将图像数据分成图像训练数据和图像查询数据,将文本数据分成文本训练数据和文本查询数据;
(2)获取图像训练数据和文本训练数据的哈希码:
将文本训练数据的Bag-of-words特征输入文本深度网络,得到文本训练数据哈希码,同时将图像训练数据的原始像素特征输入图像深度网络,得到图像训练数据哈希码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711402277.7/2.html,转载请声明来源钻瓜专利网。