[发明专利]一种面向海量向量库的快速检索系统及方法在审
申请号: | 202011269580.6 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112364080A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 谢建 | 申请(专利权)人: | 武汉长江通信智联技术有限公司;武汉长江通信产业集团股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430074 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 海量 向量 快速 检索系统 方法 | ||
本发明提出了一种面向海量向量库的快速检索系统及方法。包含中心控制单元和多个子系统单元,中心控制单元负责信号特征向量提取、任务分发与合并。各子系统建立无需聚类、增量式的数据结构,即简化了构建数据结构的复杂度,也使得构建的数据结构不依赖于数据集分布,可以对海量向量进行快速检索,同时也实现了样本动态插入与删除,能够满足更多的实际场景需求。本发明从待分裂样本集中随机选取节点,即简化了计算,同时也使构建的数据结构不依赖于原始数据分布;本发明实现可动态向数据结构中增删样本,每次增删样本后无需重新构建数据结构模型。
技术领域
本发明属于海量向量检索领域,尤其涉及一种面向海量向量库的快速检索系统及方法。
背景技术
目前的海量向量检索方法为基于Hadoop等框架的海量搜索方法,该方法通过将目标特征向量分发到不同的子系统单元中,每个子系统单元单独完成各自的检索任务,最后将各自的检索结构合并起来得到最后结果;基于数据结构的方法,首先将海量向量特征通过聚类将其进行划分,然后通过对聚类的结果构建一种数据结构模型。检索时只需要将检索的目标特征向量通过数据结构快速找到其所属的聚类类别,然后遍历该聚类类别中的所有样本实现目标向量检索;基于级联的方法,该方法先用简单特征对样本进行过滤,缩小检索范围,然后在小范围内进行精确检索。
基于Hadoop等框架的主要缺点是计算量大,资源耗费多,检索效率低下。该方式采用的是暴力搜索的方式,需要将待检索样本与样本库所有样本进行匹配。
基于数据结构的方法主要缺点是无法实现动态增删样本库,内存需求大。该方法需要提前将样本数据聚类,然后利用聚类结果生成数据结构模型,当数据量很大时,特征聚类以及数据结构模型的建立很耗时;检索过程中,首先要将整个数据结构模型加载到内存中,而模型的大小与样本数量成正比。
基于级联的方法,主要缺点是精度不高,检索效率不高。简单特征不能完全描述样本的真实信息,利用简单特征筛选过滤可能会导致性能下降;由于筛选过滤需要与所有样本计算相似度,虽然采用的是简单特征,简化了计算,但样本数据量巨大,耗时情况不能忽视,效率依然低下。
综上所述,现有海量向量检索方法主要技术问题如下:
检索效率低下,检索耗时与样本库大小成比例,当样本库很大(超过百万)时,向量检索速度无法满足实时性需求。
无法实现动态样本增删,目前的快速海量向量检索是先对样本库进行聚类,然后在聚类的基础上构建特定的数据结构模型。一旦建立数据结构模型,就无法增删样本。
资源占用率高,如果用512维向量描述一个样本,每个样本所需空间约为2k,当样本数量大于1亿时,所需存储空间超过200G。为了实现快速检索,往往需要将其全部加载到内存,资源耗费巨大。
发明内容
为了解决上述技术问题,本发明提出了一种面向海量向量库的快速检索系统及方法。
本发明解决了目前海量向量库检索以下技术问题:
本发明系统包括中心控制单元以及多个子系统单元,所述中心控制单元与所述多个子系统单元依次连接。
本发明的技术方案为一种面向海量向量库的快速检索方法,其特征在于,包括以下步骤:
步骤1:中心控制单元提取原始信号的特征向量,人工标记原始信号数据的标签,结合原始信号的特征向量构建原始信号数据的样本,根据原始信号数据的标签对原始信号数据的样本排序得到排序后信号数据样本,将相同的排序后信号数据样本中标签对应的排序后信号数据样本进行合并得到合并后信号数据样本集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉长江通信智联技术有限公司;武汉长江通信产业集团股份有限公司,未经武汉长江通信智联技术有限公司;武汉长江通信产业集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011269580.6/2.html,转载请声明来源钻瓜专利网。