[发明专利]一种面向海量向量库的快速检索系统及方法在审
| 申请号: | 202011269580.6 | 申请日: | 2020-11-13 |
| 公开(公告)号: | CN112364080A | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 谢建 | 申请(专利权)人: | 武汉长江通信智联技术有限公司;武汉长江通信产业集团股份有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
| 地址: | 430074 湖北省武*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 海量 向量 快速 检索系统 方法 | ||
1.一种基于面向海量向量库的快速检索系统的检索方法,其特征在于:
所述面向海量向量库的快速检索系统包括:中心控制单元以及多个子系统单元;
所述中心控制单元与所述多个子系统单元依次连接;
所述检索方法包括以下步骤:
步骤1:中心控制单元提取原始信号的特征向量,人工标记原始信号数据的标签,结合原始信号的特征向量构建原始信号数据的样本,根据原始信号数据的标签对原始信号数据的样本排序得到排序后信号数据样本,将相同的排序后信号数据样本中标签对应的排序后信号数据样本进行合并得到合并后信号数据样本集合;
步骤2:中心控制单元为每个子系统单元分配数据样本集合,各子系统单元将分配的数据样本集合进行重新组合,从重新组合后的样本集合中挑选出待分裂样本集合,从待分裂样本集合中随机挑选一个样本作为分裂节点,计算待分裂样本集合中所有样本与分裂节点的相似度,利用相似度对待分裂样本集合进行排序,选择中间样本的相似度作为阈值,根据相似度与阈值之间的关系更新每个待分裂样本的编码,不断重复对每个聚类进行分裂,直至每个聚类所包含样本数量小于指定数量,同时更新分裂节点,并将分裂节点加入到分裂节点集合;
步骤3:在中心控制单元提取待检索目标信号的特征向量,并封装成包含特征向量与聚类编码的形式,并将其分发给各子系统单元,从各子系统单元的分裂集合中找出聚类编码为-1的节点开始,计算该分裂节点与待检索样本的相似度,根据相似度更新待检索样本编码,重复上述步骤,直至在该子系统单元中找不到与待检索样本相同的分裂节点为止,取出此时该子系统单元中与待检索样本聚类编码一致的所有样本,将取出的所有样本进行相似度排序,选出相似度最大的m个样本作为该子系统单元检索结果上传至中心控制单元;中心控制单元将各子系统单元上传上来的检索结果合并,并按照相似度进行排序得到合并后的集合,剔除掉标签一致的样本,选择相似度最大的k个样本作为最终输出,即topK;
步骤4:中心控制单元提取将待插入样本的原始信息的特征向量,人工标记待插入样本的标签,在中心控制单元数据集中对标签属性采用二分查找法将待插入样本按照标签顺序插入到中心控制单元对应的数据集合中;随机选取一个子系统单元作为待插入子系统单元,根据步骤3更新待插入样本聚类编码,直至在该子系统单元中找不到对应的分裂节点为止;遍历待插入子系统单元中所有与待插入样本聚类编码相同样本的数量,如果数量大于指定阈值,从该聚类中选取一个样本作为分裂节点,计算该聚类中所有样本与分裂节点的相似度,更新该聚类所有节点的聚类编码,将分裂节点添加到分裂节点集合中;
步骤5:人工给出待删除样本的标签,在中心控制单元对标签采用二分查找法查找将待删除样本在中心控制单元对应的数据集合中合并后的数据;若不存在,则直接返回,否则遍历查找到合并后的数据的每个特征向量,将每个特征向量采用步骤3所述方法将每个待删除数据的特征向量作为待检索特征向量在各子系统单元中进行检索得到top1,如果检索结果的标签与待删除样本标签相同,则删除该子系统单元中的检索结果样本,遍历待插入子系统单元中所有与检索结果样本聚类编码相同样本的数量,如果数量为零,则删除掉该子系统单元分裂节点集合中与检索结果样本聚类编码相同的分裂节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉长江通信智联技术有限公司;武汉长江通信产业集团股份有限公司,未经武汉长江通信智联技术有限公司;武汉长江通信产业集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011269580.6/1.html,转载请声明来源钻瓜专利网。





