[发明专利]基于双阈值的分布式Top‑|K|查询方法有效
申请号: | 201410175464.6 | 申请日: | 2014-04-28 |
公开(公告)号: | CN103984707B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 李国瑞;王颖 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 刘萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阈值 分布式 top 查询 方法 | ||
技术领域
本发明涉及一种分布式网络环境中查询绝对值最大的前K项元素聚合值(聚合函数的计算结果,如所有元素值的和)的方法,具体是一种通过部分已知数据构建分布式系统中元素聚合值的正、负阈值,从而在有限次交互过程中实现对绝对值最大的前K项元素聚合值进行查询的方法,可以应用于互联网、物联网等分布式系统中元素聚合值的Top-|K|项查询。
背景技术
随着信息技术的不断发展,人们获取和处理数据的规模越来越大。在众多分布式应用中,如何实现快速高效地查询大规模数据集中的前|K|项数据具有重要的作用。分布式系统中需要处理的数据集分散在多个节点内,如图1所示。因此,获取同一元素的聚合值需要在多个节点间传递相应元素的信息。进而,查询绝对值最大的前K项元素聚合值需要在分布式系统中频繁传递大量的交互信息,从而造成带宽的消耗和查询的延时。
目前,分布式系统中Top-|K|查询采用单阈值的方法,查询过程需要在管理节点和成员节点间进行多次信息交换,需要消耗大量的带宽并产生较长时间的延迟,同时无法提前确定需求交互的次数。其他的Top-K方法只适用于具有单调特性的聚合函数,无法实现对绝对值最大的前K项元素聚合值进行查询的需求。
发明内容
本发明的目的在于查询分布式系统中绝对值最大的前K项元素的聚合值,适用于具有两阶段单调特性的聚合函数。
为实现上述目的,本发明采取了以下技术方案。整个方案包括了三个阶段:双阈值计算阶段、候选集计算阶段、Top-|K|查询阶段。方案中管理节点与成员节点之间的交互过程如图2所示。
分布式系统由m个节点构成,其中包括一个管理节点和多个成员节点,每个节点中包含一个由若干对(索引,值)构成并按值降序排列的元素列表Lj={(i,vj(i)),i=1,…nj},其中nj为该节点中包含元素的个数。管理节点遵循与成员节点相同的元素选取规则。定义全部元素和部分元素和
其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410175464.6/2.html,转载请声明来源钻瓜专利网。