[发明专利]一种基于Spark框架的数据表同步方法、同步装置和存储介质在审
| 申请号: | 202111299817.X | 申请日: | 2021-11-04 | 
| 公开(公告)号: | CN114020843A | 公开(公告)日: | 2022-02-08 | 
| 发明(设计)人: | 王雨松 | 申请(专利权)人: | 北京房江湖科技有限公司 | 
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/22;G06F16/28 | 
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 | 
| 地址: | 101399 北京市*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 spark 框架 数据表 同步 方法 装置 存储 介质 | ||
本申请公开了基于Spark框架的数据表同步方法、同步装置和存储介质。基于本申请,基于Spark框架获取待处理数据表中的元数据的数量,为各元数据对应生成自增字段,形成自增字段表;以及,基于各数据分区的数据处理能力和需要处理的元数据的平均长度,计算数据分区的平均可处理数据量。进一步地,基于平均可处理数据量对自增字段表进行划分,以完成对待处理数据表中的各元数据对应数据分区的划分,使得各数据分区中的数据均匀,提升数据处理效率。
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于Spark框架的数据表同步方法、同步装置和存储介质。
背景技术
在同步规模达到一定数量的关系型数据库管理系统(以下简称MySQL数据库)的业务数据表的过程中,若其中包含主键分布不均匀或主键非整型的表时,可能会出现数据倾斜以及无法同步的难题。其中,Apache Spark计算引擎(以下简称Spark框架)并发拉取MySQL数据库的业务数据表的过程中,需要根据一个整型字段(通常情况下是主键)进行分区。现有的解决办法是在拉取数据时,通过增加一列自增整型字段,来满足Spark框架的拉取要求,但这种方式会在MySQL数据库中节点产生大量临时文件。同时,也不支持按非整型字段进行分区,也需要增加一列自增整型字段,来满足Spark框架拉取的要求,但会产生子查询,子查询会在MySQL数据库中节点产生大量的临时文件,数据量越大、并发越高,产生的临时文件越大,这样会造成MySQL数据库异常不可用。
另外,在对数据进行处理时默认是将传入的自增整型字段的上下限范围按分区数拆成若干个大小一致的区间。由于MySQL数据库中会涉及到很多的删除操作,导致一些区间内并没有拿到数据,一些节点在“空跑”,一些节点却很“忙碌”,据倾斜不仅会造成资源的浪费,任务运行时间漫长,更可能会造成任务的失败。
发明内容
本申请的各实施例提供了一种基于Spark框架的数据表同步方法、同步装置和存储介质,有助于提升数据处理效率。
在一个实施例中,一种基于Spark框架的数据表同步方法包括:
基于Spark框架获取待处理数据表中的至少一条元数据的主键,并基于获取的主键数量生成与该待处理数据表中至少一个主键对应的自增字段的自增字段表;
基于各数据分区的数据处理能力和该待处理数据表中每条元数据的平均长度,计算数据分区的平均可处理数据量;
根据自增字段表和平均可处理数据量对自增字段表进行划分,并基于划分后的至少一个子自增字段表中包含的自增字段对应划分至少一个主键所在的数据分区,将划分后主键对应在待处理数据表中的各元数据同步至对应的数据分区。
可选地,将获取的主键注册为主键临时表;
以主键临时表中的初始主键为始,并基于获取的主键数量为临时表中的各主键生成对应的自增字段,生成与主键临时表对应的自增字段表。
可选地,遍历自增字段表中的至少一个自增字段,对至少一个自增字段与平均可处理数据量进行取模运算,当存在余数且余数为0时,将对应的自增字段作为划分点位,将自增字段表划分为与划分点位的个数相同数量的子自增字段表。
可选地,为每个子自增字段表匹配对应的数据分区,并将与各子自增字段中的自增字段对应的主键划分至对应的数据分区;
基于各数据分区对应的主键,并发拉取与主键对应的待处理数据表中的元数据,并将元数据同步至对应的数据分区。
在另一个实施例中,提供了一种基于Spark框架的数据表同步装置,该同步装置包括:
获取模块,用于基于Spark框架获取待处理数据表中的至少一条元数据的主键,并基于获取的主键数量生成与该待处理数据表中至少一个主键对应的自增字段的自增字段表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京房江湖科技有限公司,未经北京房江湖科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111299817.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种查询方法、装置、存储介质及电子设备
- 下一篇:一种环保型水性油墨制备系统





