[发明专利]一种大规模并行处理架构中的混合数据分布有效
申请号: | 201680011529.0 | 申请日: | 2016-01-26 |
公开(公告)号: | CN107251023B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 杰森·扬·孙;周庆庆 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/28;G06F16/2458 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 并行 处理 架构 中的 混合 数据 分布 | ||
大规模并行处理(massively parallel processing,简称MPP)数据库中的混合分布模式的系统和方法防止由数据倾斜引起的存储不平衡问题。若键的记录导致数据库倾斜,将所述数据库的那些键值视作离群点。在混合模式下,包含离群键值的记录通过随机分布方案进行分布。其他记录通过哈希分布方案进行分布。系统的门限倾斜量是可配置的。记录查询、插入、删除以及更新根据查询计划进行处理,其中该查询计划是针对数据库查询中参考的记录的分布模式进行的优化。
相关申请案交叉申请
本发明要求于2015年2月23日递交的发明名称为“一种大规模并行处理架构中的混合数据分布”的第14/629,107号美国非临时专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文。
技术领域
本发明大体涉及数据库管理领域,更具体地,涉及大规模并行处理(massivelyparallel processing,简称MPP)数据库中的数据分布领域。
背景技术
大规模并行处理(massively parallel processing,简称MPP)数据库中的数据分布设计的首要目标是数据在系统各个节点间的均匀分布。特别地,协调多个处理器以并行处理程序,其中,每个处理器具有独立的操作系统和存储器资源。该系统可称为“无共享”,其中数据库的表分割为段,并在不同处理节点间分布,在处理节点间无数据共享发生。在处理节点间分割数据,使得每个处理节点具有一个来自数据库各表中的行子集。每个处理节点仅处理其自己磁盘上的行。所述MPP数据库包括协调系统,该系统携带有所述数据库,但其本身不存储数据库记录,而是存储数据库的元数据。所述协调系统能携带数据库引擎和MPP系统的控制实体,能够生成查询计划,通过处理节点协调查询执行,并聚合系统范围内的数据。所有处理节点和所述协调系统通过常见消息接口互联在处理节点和协调器之间进行通信。
当数据库查询到达(例如,来自客户端系统的)协调器时,根据数据分布计划和优化的执行计划划分查询并分配给处理节点。每个处理节点中的处理实体仅管理各自部分的数据。然而,这些处理实体可以在执行时与其他实体进行通信以交换任何所需的信息。一个查询可划分为多个子查询,所述多个子查询可在部分或全部所述处理节点上并行执行或按某种最佳顺序执行。所述子查询的结果可进行聚合并再处理,继而额外的子查询可根据所述结果执行。
在传统MPP数据库系统中,表项通常通过以下方法之一进行分布:哈希、随机(例如,循环)、范围或列表。目前,许多MPP数据库通过哈希分布进行数据分布。在哈希分布中,记录的键值哈希至桶,这些桶分配给处理节点。哈希分布使得可通过键来直接定位数据,其消耗的系统资源最少。这为哈希分布提供了高性能特征,这是因为根据键来查询值是直接的,仅需要哈希值的计算来判断哪个节点携带有该指定哈希桶。该查询仅发送给该处理节点,不涉及其他处理节点。另一种MPP数据库分布的常见方法是循环分布。在循环分布的情况下,在所述MPP数据库的所有处理节点周围进行数据分布,其有助于记录在系统的这些节点间的均匀分布。然而,循环分布的缺点在于数据记录的查询区域。一般情况下,在查询记录期间,必须访问该系统中的许多(若不是全部)节点,以定位指定记录。因此,与采用哈希分布方案查询MPP数据库相比,对于采用传统循环分布方案的MPP数据库,系统资源利用效率更低。
采用哈希(以及范围或列表)分布的MPP数据库的一个潜在问题在于倾斜的发生。在键值的分布未倾斜的情况下,通常某些桶较大而其他桶较小。在大部分情况下,有可能将若干大大小小的桶放在一起,并将它们分配给一个处理节点,其一般目标在于每个节点均具有基本等大的总数据。然而,在某些情况下,数据分布可能会倾斜,包含单个键值的记录不适合指定处理节点中的存储设备,而其他处理节点可能具有充足的剩余空间。仅仅调整进行哈希分布的功能并不能解决该问题,需要额外的措施解决该倾斜,尤其是处理节点的存储设备中的倾斜。数据倾斜也可能导致执行查询所需的处理时间的增加,尤其是表连接的查询所需的时间。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680011529.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能环保猪舍
- 下一篇:一种拼接紧固的重组竹马厩板