[发明专利]一种大规模高维数据的分布式索引方法及系统有效
申请号: | 201711349831.X | 申请日: | 2017-12-15 |
公开(公告)号: | CN108090182B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 王建民;龙明盛;文庆福 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高维数据 分布式索引 子空间 多维 检索查询 聚类中心 查询 低维 分布式查询 分布式存储 分布式数据 准确度 查询数据 倒排索引 聚类算法 集群 聚类 维数 检索 匹配 存储 应用 保证 | ||
本发明提供一种大规模高维数据的分布式索引方法及系统,将所有的高维数据分布式存储于集群上,将每一个高维数据划分为多个低维数据,每一个子空间中存储有所有高维数据的一个低维数据,采用分布式聚类算法得到每一个子空间的所有低维数据的多个聚类中心,对每个子空间的多个聚类中心进行组合,得到所有高维数据的多个多维关键字,并计算每一个多维关键字包含的高维数据,以此对所有数据进行分布式索引。在查询时,先查询与查询数据匹配的多维关键字,再查询每一个关键字包含的高维数据。本发明将分布式聚类、分布式查询以及多个子空间的倒排索引结合起来,保证了检索查询准确度的前提下,提高检索查询的效率,可以应用于大规模分布式数据的检索。
技术领域
本发明涉及大数据检索查询技术领域,更具体地,涉及一种大规模高维数据的分布式索引方法及系统。
背景技术
在信息技术迅速发展的今天,非结构化数据如文本、图像、视频以及音频等都呈现出指数级的增长。如何从海量的互联网数据中快速、准确地获取用户想要的信息,是非结构化大数据管理与检索中的一个重要技术问题。谷歌、百度等互联网公司所提供的文本、图像等搜索服务为人们获取信息带来了极大的便利。而在这些搜索服务的背后,都需要近似近邻查询技术的支持。在大规模高维数据的应用场景下,精确的近邻查询需要耗费大量存储和计算资源,且查询时间太长、索引系统吞吐量过低,实际应用价值偏低。近似近邻查询技术可以大幅度缩短查询时间、降低存储和计算开销,同时保证查询结果与精确查询结果近似,因此具有更高的实用性。除了信息检索以外,相似检索技术被广泛应用于机器学习、数据挖掘、多媒体管理等领域。
在数据规模不断增长的今天,越来越多的应用都是基于存储在分布式系统中的大规模数据,例如互联网文本、图像、视频检索等。现有的很多索引算法都是在单机的环境下实现的,而在分布式环境下,现有大部分索引方法都要求将所有数据迁移到同一台机器中进行集中式处理,但这违背了数据的分布式存储方式,带来了很高的数据迁移代价,并且对单机的数据处理性能要求很高。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种大规模高维数据的分布式索引方法及系统。
根据本发明的一个方面,提供了一种大规模高维数据的分布式索引方法,包括:
将存储于每个子节点上的每个高维数据划分为m个低维数据,将每个高维数据对应的低维数据存储于对应的m个子空间中,其中,m为大于等于2的整数;
对于所有子节点上的同一子空间的低维数据,采用分布式聚类算法,得到每个子空间的K个聚类中心,将每一个聚类中心作为一个一维关键字,将每个子空间的K个关键字进行组合,得到Km个m维关键字,其中,K为正整数;
在每个子节点上计算该子节点的每一个子空间中的低维数据隶属的聚类中心,进而得到每个高维数据隶属的m维关键字,以得到每一个m维关键字包括的所有的高维数据;
确定所述Km个m维关键字中与所述查询数据匹配的多个m维关键字;
根据每一个m维关键字包括的所有的高维数据,确定每一个相近的m维关键字中的所有高维数据中与所述查询数据匹配的高维数据,找到与所述查询数据匹配的所有的高维数据,作为查询结果。
在上述技术方案的基础上,本发明还可以作如下改进。
进一步的,还包括:
将所有的高维数据存储于多个子节点组成的计算机集群中,从多个子节点中选取一个子节点作为所有子节点的主节点。
进一步的,所述将存储于每个子节点上的每个高维数据划分为m个低维数据,将每个高维数据对应的低维数据存储于对应的m个子空间中具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711349831.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:个人信息推送方法及系统
- 下一篇:文件名展示方法、装置及设备