[发明专利]一种大规模高维数据的分布式索引方法及系统有效
申请号: | 201711349831.X | 申请日: | 2017-12-15 |
公开(公告)号: | CN108090182B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 王建民;龙明盛;文庆福 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高维数据 分布式索引 子空间 多维 检索查询 聚类中心 查询 低维 分布式查询 分布式存储 分布式数据 准确度 查询数据 倒排索引 聚类算法 集群 聚类 维数 检索 匹配 存储 应用 保证 | ||
1.一种大规模高维数据的分布式索引方法,其特征在于,包括:
将存储于每个子节点上的每个高维数据划分为m个低维数据,将每个高维数据对应的低维数据存储于对应的m个子空间中,其中,m为大于等于2的整数;
对于所有子节点上的同一子空间的低维数据,采用分布式聚类算法,得到每个子空间的K个聚类中心,将每一个聚类中心作为一个一维关键字,将每个子空间的K个关键字进行组合,得到Km个m维关键字,其中,K为正整数;
在每个子节点上计算该子节点的每一个子空间中的低维数据隶属的聚类中心,进而得到每个高维数据隶属的m维关键字,以得到每一个m维关键字包括的所有的高维数据;
确定所述Km个m维关键字中与查询数据匹配的多个m维关键字;
根据每一个m维关键字包括的所有的高维数据,确定每一个相近的m维关键字中的所有高维数据中与所述查询数据匹配的高维数据,找到与所述查询数据匹配的所有的高维数据,作为查询结果。
2.如权利要求1所述的大规模高维数据的分布式索引方法,其特征在于,还包括:
将所有的高维数据存储于多个子节点组成的计算机集群中,从多个子节点中选取一个子节点作为所有子节点的主节点。
3.如权利要求2所述的大规模高维数据的分布式索引方法,其特征在于,所述将存储于每个子节点上的每个高维数据划分为m个低维数据,将每个高维数据对应的低维数据存储于对应的m个子空间中具体包括:
在每个子节点上将本节点上的每一个P维数据在维度上划分为m个P/m维数据,并将每个P维数据的每个P/m维数据存储于对应的子空间中,其中,P/m为整数,所述子空间的个数为m个。
4.如权利要求3所述的大规模高维数据的分布式索引方法,其特征在于,对于所有子节点上的同一子空间的低维数据,采用分布式聚类算法,得到每个子空间的K个聚类中心,将每一个聚类中心作为一个一维关键字,将每个子空间的K个关键字进行组合,得到Km个m维关键字具体包括:
采用分布式K-Means聚类算法对所有子节点上的第i个子空间的P/m维数据进行分布式聚类,得到每个子空间的K个聚类中心,分别记为:
其中,i=1,2,…m,m表示第m个子空间,k表示第k个聚类中心;
将每一个聚类中心作为一个关键字,在主节点上对m个子空间的K个聚类中心进行组合,得到Km个m维关键字,记为U=[u1x,u2y,...,umw],其中,0<x、y、w≤k,且x、y、w均为整数,U表示m维关键字,x表示从U1=[u11,u12,...,u1k]中选取的第x个聚类中心,y表示从U2=[u21,u22,...,u2k]中选取的第y个聚类中心,w表示从Um=[um1,um2,...,umk]中选取的第w个聚类中心。
5.如权利要求4所述的大规模高维数据的分布式索引方法,其特征在于,所述在每个子节点上计算该子节点的每一个子空间中的低维数据隶属的聚类中心,进而得到每个高维数据隶属的m维关键字,以得到每一个m维关键字包括的所有的高维数据具体包括:
在每一个子节点上计算该子节点的每一个子空间中的每一个P/m维数据与该子空间的K个聚类中心的欧氏距离,将距离最近的聚类中心作为该P/m维数据隶属的聚类中心,进而得到该子节点的每一个子空间的每一个P/m维数据隶属的聚类中心;
对于每一个子节点上的每一个P维数据,将其对应的m个P/m维数据隶属的聚类中心合并,得到该P维数据对应的m维关键字,进而得到每一个m维关键字所包含的所有的P维数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711349831.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:个人信息推送方法及系统
- 下一篇:文件名展示方法、装置及设备