[发明专利]搜索大规模非结构化数据的随机提取森林索引结构在审

专利信息
申请号: 201980016647.4 申请日: 2019-02-20
公开(公告)号: CN111868710A 公开(公告)日: 2020-10-30
发明(设计)人: 路阳迪;何文波;阿米尔·纳巴契安 申请(专利权)人: 华为技术加拿大有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/903
代理公司: 北京龙双利达知识产权代理有限公司 11329 代理人: 时林;王君
地址: 加拿大*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 大规模 结构 数据 随机 提取 森林 索引
【权利要求书】:

1.一种生成索引多个数据对象的索引结构的方法,其特征在于,包括:

对于每个数据对象:

为所述数据对象生成紧凑特征向量,其中,所述紧凑特征向量包括表征所述数据对象的哈希值的序列;

使用多个组合排列组合所述哈希值序列,为每个数据对象生成多个组合序列,其中,每个组合序列包括根据所述组合排列中的一个各自的组合排列组合获得的所述紧凑特征向量的所述哈希值;

基于所述组合序列在多个索引表中索引所述数据对象,其中,每个索引表都对应一个各自的组合排列;

存储所述多个索引表为所述多个对象的所述索引结构。

2.根据权利要求1所述的方法,其特征在于,所述排列组合的每个排列组合都是为各自组合序列中的所述哈希值指定随机次序的随机组合排列。

3.根据权利要求2所述的方法,其特征在于,所述哈希值是二进制值,每个组合排列包括一个随机生成的组合数值序列,每个组合数值都在各自组合序列中为所述哈希值指定序列地址。

4.根据权利要求1至3任一项所述的方法,其特征在于,每个数据对象由各自的包括多个从所述数据对象提取出来的特征值的原始特征向量表征,生成所述紧凑特征向量包括哈希法所述原始特征向量,以生成所述哈希值序列。

5.根据权利要求4所述的方法,其特征在于,所述哈希法是使用接近最近邻(approximate nearest neighbour,简称ANN)哈希法函数的局部敏感哈希法(localitysensitive hashing,简称LSH)。

6.根据权利要求1至5任一项所述的方法,其特征在于:

每个组合排列对应的所述索引表都是包括d-节点和k-节点的树状结构;

每个d-节点包括一组槽位,其中每个槽位都有各自的槽位ID,至少一些所述槽位或者被与所述槽位关联的k-节点的指针占用,或者被下一级别的d-节点的指针占用;

每个k-节点包括所述数据对象的一个对应的数据对象的指针,其中,至少一些所述k-节点也包括另一个k-节点的指针。

7.根据权利要求6所述的方法,其特征在于,对于每个索引表,每个k-节点都基于所述k-节点对应的数据对象的所述组合序列的第一子序列与根d-节点的槽位相关联,其中,所述第一子序列使用所述索引表对应的所述组合排列生成。

8.根据权利要求7所述的方法,其特征在于,对于每个索引表,当与所述根d-节点的槽位关联的k-节点的数量超过阈值,会在所述索引表中加入下一级别的d-节点,与所述根d-节点的槽位相关联;随后,每个与所述根d-节点的槽位相关联的k-节点都基于所述k-节点对应的数据对象的所述组合序列的第二子序列与所述下一级别d-节点的槽位相关联,其中,所述第二子序列使用所述索引表对应的所述组合排列生成。

9.根据权利要求1至8任一项所述的方法,其特征在于,包括进行所述多个数据对象的搜索,步骤如下:

为查询对象生成紧凑查询特征向量,其中,所述紧凑查询特征向量包括表征所述查询对象的哈希值的序列;

使用所述多个组合排列组合所述哈希值序列,为所述查询对象生成多个组合查询序列;

基于使用对应所述索引表的所述组合排列生成的所述组合查询序列,搜索每个索引表,以标识与所述查询对象相似的候选数据对象。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术加拿大有限公司,未经华为技术加拿大有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201980016647.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top