[发明专利]关系型数据库的汉明向量检索方法、装置、介质及终端在审
申请号: | 202210783496.9 | 申请日: | 2022-07-05 |
公开(公告)号: | CN115374104A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 秦建斌;刘晟嵩;张亚茹;苗宇锴;牛佳;王毅;毛睿 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F16/28 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 杨宏;刘芙蓉 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系 数据库 向量 检索 方法 装置 介质 终端 | ||
本发明公开了一种关系型数据库的汉明向量检索方法、装置、介质及终端,方法包括:将要查询的汉明向量及所需数量输入到预设数据库中;对所述汉明向量进行划分,得到若干个子向量,基于若干个所述子向量生成候选集;对所述候选集中的每个候选子向量进行哈希表查询,得到候选向量ID,并统计所述候选向量ID的数量;将所述候选向量ID的数量与预设值相比,得到比较结果,根据所述比较结果选择返回最近邻的所述所需数量的向量,本发明采用上述方法后实现了高效的高维度汉明向量的检索,且通过构建汉明向量数据库实现了对高维度汉明向量的存储和计算。
技术领域
本发明涉及关系型数据库检索领域,尤其涉及一种关系型数据库的汉明向量检索方法、装置、介质及终端。
背景技术
数据库系统因为具有事务性、容灾、备份等多种特性而在生产环境中被广泛应用,其中,关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。
汉明向量由于其存储和运算开销小被广泛应用于如图片检索、网页去重等一系列应用中,现有的多媒体文件的特征通常由汉明向量表示,而通过汉明向量间的距离就可判定多个多媒体文件物体间的相似度,而现有数据库却不能支持高维度汉明向量的检索。
发明内容
鉴于上述现有技术的不足,本申请的目的在于提供一种关系型数据库的汉明向量检索方法、装置、介质及终端,旨在解决在现有数据库不能支持高维度汉明向量检索的问题。
为解决上述技术问题,本申请实施例第一方面提供了一种关系型数据库的汉明向量检索方法,所述方法包括:
将要查询的汉明向量及所需数量输入到预设数据库中;
对所述汉明向量进行划分,得到若干个子向量,基于若干个所述子向量生成候选集;
对所述候选集中的每个候选子向量进行哈希表查询,得到候选向量ID,并统计所述候选向量ID的数量;
将所述候选向量ID的数量与预设值相比,得到比较结果,根据所述比较结果选择返回最近邻的所述所需数量的向量。
作为进一步改进技术方案,所述将要查询的汉明向量及所需数量输入到预设数据库中包括:
构建汉明向量数据库,将构建完成的所述汉明向量数据库作为所述预设数据库;
将要查询的汉明向量及所需数量输入到所述预设数据库中。
作为进一步改进技术方案,所述构建汉明向量数据库,将构建完成的所述汉明向量数据库作为所述预设数据库包括:
将数据库的数据类型定义为hmcode,hmcode用于在数据库内高效的支持汉明向量的存储和运算;
创建若干个哈希索引表,将高维汉明向量均分为若干个低维度的子汉明向量,将所述子汉明向量插入对应的哈希索引表中,其中,每一个所述哈希索引表的第一列为子汉明向量的值,第二列为高维汉明向量的ID值。
作为进一步改进技术方案,所述对所述汉明向量进行划分,得到若干个子向量,基于若干个所述子向量生成候选集包括:
对所述汉明向量进行划分,得到若干个子向量;
对每个所述子向量基于预设汉明距离生成候选向量,基于若干个所述子向量生成候选集,其中,将预设汉明距离的所有向量作为候选向量,预设汉明距离为t-1,t为生成候选向量的次数。
作为进一步改进技术方案,所述对所述候选集中的每个候选子向量进行哈希表查询,得到候选向量ID,并统计所述候选向量ID的数量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210783496.9/2.html,转载请声明来源钻瓜专利网。