[发明专利]一种基于对抗投影学习哈希的跨模态检索方法及装置在审
| 申请号: | 202011007517.5 | 申请日: | 2020-09-23 |
| 公开(公告)号: | CN112214570A | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 白琮;曾超;马青;陈胜勇 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对抗 投影 学习 跨模态 检索 方法 装置 | ||
本发明公开了一种基于对抗投影学习哈希的跨模态检索方法及装置,采用训练好的神经网络进行检索,所述神经网络包括图像网络和文本网络,所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层,将待检索的图像数据或文本数据输入到各自对应的特征函数层,获取到图像特征或文本特征,将提取的图像特征或文本特征输入到各自对应的哈希函数层;将哈希函数层的输出输入到对应的符号函数层,获取最终的哈希码;将获得的哈希码与数据库中文本或图像的哈希码进行比较,得到查询结果。本申请检索方法精度较高、检索效率较高。
技术领域
本发明涉及计算机视觉领域的图像大数据处理与分析以及自然语言的处理与分析技术领域,特别涉及一种基于对抗投影学习哈希的跨模态检索方法及装置。
背景技术
随着现代网络技术的发展,大量的多模态数据每天在人们的日常生活中生成,包括文本,音频,视频和图像。同时,从如此大量的多模态数据中进行有效检索已成为一个巨大的挑战,其中图像到文本和文本到图像的检索是最广泛研究的。基于哈希学习的检索由于其高效性及存储的便捷性被广泛应用于各种检索任务中。哈希学习通过学习到最优的哈希函数,在尽可能保证原始空间内数据之间的相似度的前提下,将高维数据映射为二值码。
但由于二值化离散优化是NP问题,而很多方法采用宽松的条件使用连续值进行优化,优化后再把连续值取整为二值码。在这种宽松的条件下会导致巨大的量化误差、优化不稳定等问题。
发明内容
本申请的目的是提供一种基于对抗投影学习哈希的跨模态检索方法及装置,在图像模态和文本模态中利用多层神经网络构造特征重构网络以及非线性哈希函数,并且在两个模态间设计了分布式的判别器进行对抗训练。在保证哈希码离散型前提下设计了目标函数,通过优化该目标函数得到哈希函数。哈希函数将目标数据特征(图像和文本)转换为二值码,检索时利用二值码进行跨模态检索。
为了实现上述目的,本申请技术方案如下:
一种基于对抗投影学习哈希的跨模态检索方法,预先训练有用于哈希学习的神经网络,所述神经网络包括图像网络和文本网络,所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层,所述基于对抗投影学习哈希的跨模态检索方法,包括:
将待检索的图像数据或文本数据输入到各自对应的特征函数层,获取到图像特征或文本特征,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数及Dropout层;
将提取的图像特征或文本特征输入到各自对应哈希函数层;
将哈希函数层的输出输入到对应的符号函数层,获取最终的哈希码;
将获得的哈希码与数据库中文本或图像的哈希码进行比较,得到查询结果。
进一步的,所述图像网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层。所述图像网络和文本网络的哈希函数层分别都包括一层全连接层,该全连接层后加tanh激活函数及Dropout层。
进一步的,所述神经网络的目标函数为:
其中,α、η、γ、β为超参数,为目标函数,表示特征函数层对应的对抗损失函数,表示哈希函数层对应的对抗损失函数;代表了图像特征投影到文本特征时的跨模态投影匹配损失函数,代表了文本特征投影到图像特征时的跨模态投影匹配损失函数;代表了当查询目标是图像时的加权余弦三元组损失函数,代表了当查询目标是文本时的加权余弦三元组损失函数;为分类损失函数,为量化损失函数。
进一步的,所述加权余弦三元组损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011007517.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测量铸件壁厚的工具
- 下一篇:一种基于物联网的食材处理平台





