[发明专利]一种分布式数据库的数据处理方法及装置在审
申请号: | 202011086069.2 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112181989A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 江惠中 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27;G06F16/2455 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张秀英 |
地址: | 310051 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据库 数据处理 方法 装置 | ||
本发明提供了一种分布式数据库的数据处理方法及装置,其中,该方法包括:接收包括第一表与第二表中相同属性的待关联列的业务需求,其中,该第一表与该第二表中至少包括一列相同属性的数据;根据该业务需求创建包括第一列组的该第一表与包括第二列组的该第二表,其中,该第一列组与该第二列组均包括该待关联列;将该第一表按照该第一列组分布数据,并将该第二表按照该第二列组分布数据,可以解决相关技术中两表关联查询时需要重新分布一张表的数据,增加了网络压力和时间开销的问题,根据实际的业务使用需求,创建表时包括多个列组,以控制数据的分布方式,使得关联查询时无需重新分布表的数据,加快数据处理的效率。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种分布式数据库的数据处理方法及装置。
背景技术
在当前开源数据库Greenplum中,为了实现两个表的关联查询,如果where条件中做join(关联)的列与某个表的分布键不相同,则需要把该表的数据按照关联的列做重新分布(即数据重分布),类似于Hadoop生态系统中的Shuffle机制。
相关技术中提出的分布式关系数据库的数据处理方法,统计数据分布以及制定数据重分布计划比较耗时,在一个节点上进行,会将这个过程串行化,导致效率低下;现有的数据迁移算法一般追求将每个表的数据重新分布到各个节点,这样造成数据重新分布的代价过高。数据处理使得在两表关联时,连接条件都不是分布键时,只需要重新分布一张表的数据。
针对相关技术中两表关联查询时需要重新分布一张表的数据,增加了网络压力和时间开销的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种分布式数据库的数据处理方法及装置,以至少解决相关技术中两表关联查询时需要重新分布一张表的数据,增加了网络压力和时间开销的问题。
根据本发明的一个实施例,提供了一种分布式数据库的数据处理方法,包括:
接收包括第一表与第二表中相同属性的待关联列的业务需求,其中,所述第一表与所述第二表中至少包括一列相同属性的数据;
根据所述业务需求创建包括第一列组的所述第一表和包括第二列组的所述第二表,其中,所述第一列组与所述第二列组均包括所述待关联列;
将所述第一表按照所述第一列组分布数据,并将所述第二表按照所述第二列组分布数据。
可选地,在根据所述业务需求创建包括所述第一列组的所述第一表与包括所述第二列组的所述第二表之后,所述方法还包括:
为所述第一列组创建对应的第一子表,并将所述第一子表发送给多个数据节点,其中,所述多个数据节点用于存储所述第一子表;
为所述第二列组创建对应的第二子表,并将所述第二子表发送给所述多个数据节点,其中,所述多个数据节点用于存储所述第二子表。
可选地,将所述第一表按照所述第一列组分布数据,并将所述第二表按照所述第二列组分布数据包括:
将所述第一表的数据按照所述第一列组确定对应的第一哈希值,并根据所述第一哈希值将所述第一表的数据插入到所述多个数据节点的所述第一子表中;
将所述第二表的数据按照所述第二列组确定对应的第二哈希值,并根据所述第二哈希值将所述第二表的数据插入到所述多个数据节点的所述第二子表中。
可选地,所述方法还包括:
在所述第一列组或所述第二列组包括至少2个列组,且检测到删除所述第一列组或所述第二列组中的第一目标列组的情况下,删除所述第一目标列组对应的子表。
可选地,在将所述第一表按照所述第一列组分布数据,并将所述第二表按照所述第二列组分布数据之后,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011086069.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种野外变电站的保护设备
- 下一篇:数据查询方法及装置、存储介质、电子装置