[发明专利]一种基于数据分布的大数据查询方法有效
| 申请号: | 201810300996.6 | 申请日: | 2018-04-04 |
| 公开(公告)号: | CN108520053B | 公开(公告)日: | 2020-03-31 |
| 发明(设计)人: | 宋杰;董伟;徐超;王蓓蕾 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/24 | 分类号: | G06F16/24 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 刘晓岚 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 分布 查询 方法 | ||
本发明提供一种基于数据分布的大数据查询方法,涉及大数据查询技术领域。一种基于数据分布的大数据查询方法,首先对待查询的数据划分数据段,并根据加速比计算整体数据段的段势分布函数,以确定各数据段的数量比例关系;然后根据约束条件将待查询数据装载到各数据段内;最后根据用户查询请求的时限要求,采用数据段选择算法确定参与查询的数据段,并返回查询结果及实际查全率和置信度。本发明提供的基于数据分布的大数据查询方法,保证了分布式环境下各类查询的随机性、性能和近似性评价,并兼容精确查询,且新增数据不会影响查询效果,具备良好的扩展性和可维护性。
技术领域
本发明涉及大数据查询技术领域,尤其涉及一种基于数据分布的大数据查询方法。
背景技术
人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(Big Data)时代。面对如此庞大的数据量,如何能在可容忍的时间范围内找到目标数据至关重要。
早期对查询处理技术的研究主要集中在对精确查询的优化与调度,而且已取得大量成果。但是如果当今仍然采用传统精确的查询技术处理海量数据,一方面查询算法难以进一步优化,另一方面精确查询任务将会显得极其繁重,从而导致整个查询的响应时间超过用户可以接受的限度。此外,缩小搜索范围(Search Scope)是优化查询的主要思路,传统的数据分区和索引技术可以精确的缩小搜索范围,提高查询命中率,然而这些技术都依赖数据值域的良好划分和精细的数据结构,在大数据环境中维护一个精确的数据分区和索引的代价很高。如果能在海量数据中找到自己想要的、非重复的结果且拥有一个理想的响应时间,那么对于解决当代社会的许多关键问题都有帮助。
很多实际应用中,人们并不需要精确的查询结果,仅需要满足一定精度要求的近似的查询结果,或可以适当损失查询精度来满足性能要求。如人们在机场通过GPS定位服务寻找附近几个最近的餐馆时,他们并不需求非常精确的数据,相反他们对响应时间的要求会更高。对于一般查询,查准率比查全率更为重要,如用户能够容忍查询返回的餐馆并非匹配条件的所有餐馆,但难以接受查询结果中包含不匹配查询条件的餐馆,这一点在大数据查询中尤为明显。
发明内容
针对现有技术的缺陷,本发明提供一种基于数据分布的大数据查询方法,通过约简搜索范围来提高查询性能。
一种基于数据分布的大数据查询方法,包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,…,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||sk||=|sk|/(|s1|+|s2|+…+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系,具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810300996.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





