[发明专利]一种基于Spark框架的数据表同步方法、同步装置和存储介质在审

专利信息
申请号: 202111299817.X 申请日: 2021-11-04
公开(公告)号: CN114020843A 公开(公告)日: 2022-02-08
发明(设计)人: 王雨松 申请(专利权)人: 北京房江湖科技有限公司
主分类号: G06F16/27 分类号: G06F16/27;G06F16/22;G06F16/28
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 张驰;宋志强
地址: 101399 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 框架 数据表 同步 方法 装置 存储 介质
【说明书】:

本申请公开了基于Spark框架的数据表同步方法、同步装置和存储介质。基于本申请,基于Spark框架获取待处理数据表中的元数据的数量,为各元数据对应生成自增字段,形成自增字段表;以及,基于各数据分区的数据处理能力和需要处理的元数据的平均长度,计算数据分区的平均可处理数据量。进一步地,基于平均可处理数据量对自增字段表进行划分,以完成对待处理数据表中的各元数据对应数据分区的划分,使得各数据分区中的数据均匀,提升数据处理效率。

技术领域

本申请涉及互联网技术领域,尤其涉及一种基于Spark框架的数据表同步方法、同步装置和存储介质。

背景技术

在同步规模达到一定数量的关系型数据库管理系统(以下简称MySQL数据库)的业务数据表的过程中,若其中包含主键分布不均匀或主键非整型的表时,可能会出现数据倾斜以及无法同步的难题。其中,Apache Spark计算引擎(以下简称Spark框架)并发拉取MySQL数据库的业务数据表的过程中,需要根据一个整型字段(通常情况下是主键)进行分区。现有的解决办法是在拉取数据时,通过增加一列自增整型字段,来满足Spark框架的拉取要求,但这种方式会在MySQL数据库中节点产生大量临时文件。同时,也不支持按非整型字段进行分区,也需要增加一列自增整型字段,来满足Spark框架拉取的要求,但会产生子查询,子查询会在MySQL数据库中节点产生大量的临时文件,数据量越大、并发越高,产生的临时文件越大,这样会造成MySQL数据库异常不可用。

另外,在对数据进行处理时默认是将传入的自增整型字段的上下限范围按分区数拆成若干个大小一致的区间。由于MySQL数据库中会涉及到很多的删除操作,导致一些区间内并没有拿到数据,一些节点在“空跑”,一些节点却很“忙碌”,据倾斜不仅会造成资源的浪费,任务运行时间漫长,更可能会造成任务的失败。

发明内容

本申请的各实施例提供了一种基于Spark框架的数据表同步方法、同步装置和存储介质,有助于提升数据处理效率。

在一个实施例中,一种基于Spark框架的数据表同步方法包括:

基于Spark框架获取待处理数据表中的至少一条元数据的主键,并基于获取的主键数量生成与该待处理数据表中至少一个主键对应的自增字段的自增字段表;

基于各数据分区的数据处理能力和该待处理数据表中每条元数据的平均长度,计算数据分区的平均可处理数据量;

根据自增字段表和平均可处理数据量对自增字段表进行划分,并基于划分后的至少一个子自增字段表中包含的自增字段对应划分至少一个主键所在的数据分区,将划分后主键对应在待处理数据表中的各元数据同步至对应的数据分区。

可选地,将获取的主键注册为主键临时表;

以主键临时表中的初始主键为始,并基于获取的主键数量为临时表中的各主键生成对应的自增字段,生成与主键临时表对应的自增字段表。

可选地,遍历自增字段表中的至少一个自增字段,对至少一个自增字段与平均可处理数据量进行取模运算,当存在余数且余数为0时,将对应的自增字段作为划分点位,将自增字段表划分为与划分点位的个数相同数量的子自增字段表。

可选地,为每个子自增字段表匹配对应的数据分区,并将与各子自增字段中的自增字段对应的主键划分至对应的数据分区;

基于各数据分区对应的主键,并发拉取与主键对应的待处理数据表中的元数据,并将元数据同步至对应的数据分区。

在另一个实施例中,提供了一种基于Spark框架的数据表同步装置,该同步装置包括:

获取模块,用于基于Spark框架获取待处理数据表中的至少一条元数据的主键,并基于获取的主键数量生成与该待处理数据表中至少一个主键对应的自增字段的自增字段表;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京房江湖科技有限公司,未经北京房江湖科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111299817.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top