[发明专利]一种大规模高维数据的分布式索引方法及系统有效
申请号: | 201711349831.X | 申请日: | 2017-12-15 |
公开(公告)号: | CN108090182B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 王建民;龙明盛;文庆福 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种大规模高维数据的分布式索引方法及系统,将所有的高维数据分布式存储于集群上,将每一个高维数据划分为多个低维数据,每一个子空间中存储有所有高维数据的一个低维数据,采用分布式聚类算法得到每一个子空间的所有低维数据的多个聚类中心,对每个子空间的多个聚类中心进行组合,得到所有高维数据的多个多维关键字,并计算每一个多维关键字包含的高维数据,以此对所有数据进行分布式索引。在查询时,先查询与查询数据匹配的多维关键字,再查询每一个关键字包含的高维数据。本发明将分布式聚类、分布式查询以及多个子空间的倒排索引结合起来,保证了检索查询准确度的前提下,提高检索查询的效率,可以应用于大规模分布式数据的检索。 | ||
搜索关键词: | 高维数据 分布式索引 子空间 多维 检索查询 聚类中心 查询 低维 分布式查询 分布式存储 分布式数据 准确度 查询数据 倒排索引 聚类算法 集群 聚类 维数 检索 匹配 存储 应用 保证 | ||
【主权项】:
1.一种大规模高维数据的分布式索引方法,其特征在于,包括:将存储于每个子节点上的每个高维数据划分为m个低维数据,将每个高维数据对应的低维数据存储于对应的m个子空间中,其中,m为大于等于2的整数;对于所有子节点上的同一子空间的低维数据,采用分布式聚类算法,得到每个子空间的K个聚类中心,将每一个聚类中心作为一个一维关键字,将每个子空间的K个关键字进行组合,得到Km个m维关键字,其中,K为正整数;在每个子节点上计算该子节点的每一个子空间中的低维数据隶属的聚类中心,进而得到每个高维数据隶属的m维关键字,以得到每一个m维关键字包括的所有的高维数据;确定所述Km个m维关键字中与查询数据匹配的多个m维关键字;根据每一个m维关键字包括的所有的高维数据,确定每一个相近的m维关键字中的所有高维数据中与所述查询数据匹配的高维数据,找到与所述查询数据匹配的所有的高维数据,作为查询结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711349831.X/,转载请声明来源钻瓜专利网。
- 上一篇:个人信息推送方法及系统
- 下一篇:文件名展示方法、装置及设备