[发明专利]搜索大规模非结构化数据的随机提取森林索引结构在审
| 申请号: | 201980016647.4 | 申请日: | 2019-02-20 |
| 公开(公告)号: | CN111868710A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 路阳迪;何文波;阿米尔·纳巴契安 | 申请(专利权)人: | 华为技术加拿大有限公司 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
| 代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 时林;王君 |
| 地址: | 加拿大*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索 大规模 结构 数据 随机 提取 森林 索引 | ||
1.一种生成索引多个数据对象的索引结构的方法,其特征在于,包括:
对于每个数据对象:
为所述数据对象生成紧凑特征向量,其中,所述紧凑特征向量包括表征所述数据对象的哈希值的序列;
使用多个组合排列组合所述哈希值序列,为每个数据对象生成多个组合序列,其中,每个组合序列包括根据所述组合排列中的一个各自的组合排列组合获得的所述紧凑特征向量的所述哈希值;
基于所述组合序列在多个索引表中索引所述数据对象,其中,每个索引表都对应一个各自的组合排列;
存储所述多个索引表为所述多个对象的所述索引结构。
2.根据权利要求1所述的方法,其特征在于,所述排列组合的每个排列组合都是为各自组合序列中的所述哈希值指定随机次序的随机组合排列。
3.根据权利要求2所述的方法,其特征在于,所述哈希值是二进制值,每个组合排列包括一个随机生成的组合数值序列,每个组合数值都在各自组合序列中为所述哈希值指定序列地址。
4.根据权利要求1至3任一项所述的方法,其特征在于,每个数据对象由各自的包括多个从所述数据对象提取出来的特征值的原始特征向量表征,生成所述紧凑特征向量包括哈希法所述原始特征向量,以生成所述哈希值序列。
5.根据权利要求4所述的方法,其特征在于,所述哈希法是使用接近最近邻(approximate nearest neighbour,简称ANN)哈希法函数的局部敏感哈希法(localitysensitive hashing,简称LSH)。
6.根据权利要求1至5任一项所述的方法,其特征在于:
每个组合排列对应的所述索引表都是包括d-节点和k-节点的树状结构;
每个d-节点包括一组槽位,其中每个槽位都有各自的槽位ID,至少一些所述槽位或者被与所述槽位关联的k-节点的指针占用,或者被下一级别的d-节点的指针占用;
每个k-节点包括所述数据对象的一个对应的数据对象的指针,其中,至少一些所述k-节点也包括另一个k-节点的指针。
7.根据权利要求6所述的方法,其特征在于,对于每个索引表,每个k-节点都基于所述k-节点对应的数据对象的所述组合序列的第一子序列与根d-节点的槽位相关联,其中,所述第一子序列使用所述索引表对应的所述组合排列生成。
8.根据权利要求7所述的方法,其特征在于,对于每个索引表,当与所述根d-节点的槽位关联的k-节点的数量超过阈值,会在所述索引表中加入下一级别的d-节点,与所述根d-节点的槽位相关联;随后,每个与所述根d-节点的槽位相关联的k-节点都基于所述k-节点对应的数据对象的所述组合序列的第二子序列与所述下一级别d-节点的槽位相关联,其中,所述第二子序列使用所述索引表对应的所述组合排列生成。
9.根据权利要求1至8任一项所述的方法,其特征在于,包括进行所述多个数据对象的搜索,步骤如下:
为查询对象生成紧凑查询特征向量,其中,所述紧凑查询特征向量包括表征所述查询对象的哈希值的序列;
使用所述多个组合排列组合所述哈希值序列,为所述查询对象生成多个组合查询序列;
基于使用对应所述索引表的所述组合排列生成的所述组合查询序列,搜索每个索引表,以标识与所述查询对象相似的候选数据对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术加拿大有限公司,未经华为技术加拿大有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980016647.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





