[发明专利]一种适用于大数据集的数据并行处理方法、装置及系统在审

专利信息
申请号: 201911401436.0 申请日: 2019-12-30
公开(公告)号: CN111198847A 公开(公告)日: 2020-05-26
发明(设计)人: 张志聪;陈泽宁;陈涛;曾慧宇;周子岳 申请(专利权)人: 广东奡风科技股份有限公司
主分类号: G06F16/13 分类号: G06F16/13;G06F16/16;G06F16/182
代理公司: 广州新诺专利商标事务所有限公司 44100 代理人: 李小林
地址: 510000 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 数据 并行 处理 方法 装置 系统
【说明书】:

发明提供了一种适用于大数据集的数据并行处理方法、装置及系统,通过以主数据集的主键列数据为基础进行分片信息的计算,并采用并行处理的方式对多个输入数据集进行分片及合并,可对大量满足条件的数据表同时进行合并,运行效率高,同时并行计算可以在多台服务器中均衡进行,避免单节点的数据处理瓶颈,通过对分片数量参数的设定即可控制整个分片的细度,具有运行资源可控、系统开销少的特点,在硬件配置较低的环境下也可以使用,不会出现内存溢出、系统宕机等问题。

技术领域

本发明属于数据处理技术领域,具体涉及一种适用于大数据集的数据并行处理方法、装置及系统。

背景技术

在当今大数据时代,数据变化快、数据量大、类型多样,企业不断面临新的数据处理挑战,以银行客户标签系统为例,随着业务用户对标签的理解不断深入、应用越来越广泛,客户标签增长非常快,从原来的几十个、几百个,不断增加到目前的几千个,这些标签来自大量分散的应用系统,迫切需要进行汇总,形成客户的统一数据视图,以更全面地了解客户。

基于以上业务需求,“快速合并大量客户标签表”成为系统设计开发中的关键问题。基于目前主流的数据处理技术,对此问题的解决方案是采用数据库表的关联(Join)操作,主流的数据表关联(Join)技术包括:基于传统单机RDBMS的数据库表Join,基于MPP数据库表Join,基于HadoopHive的数据表Join,基于Spark SQL的数据库表Join,这些数据表关联方法在下面统称为传统数据关联技术。

这些传统数据关联技术的所使用算法主要有三种:分别是Nested Loops Join,Merge Join和Hash Join,分别有各自适用的应用场景。Nested Loops Join是嵌套循环连接方式,适合主表数据量比较小的场景;Merge Join通常需要对数据表进行排序,适合存在排序索引的场景,如果是大量的无序数据,则会带来很大的排序开销;HashJoin适合两个表数据量差别比较大的场景,主要系统开销在CPU和内存,在系统资源充足的大多数情况下,性能会比其他方式都好,但如果数据量太大,会导致CPU和内存的瓶颈。

而“快速合并大量客户标签表”这一用户需求具有以下特点:

1、数据表多:存在数十张客户标签表甚至上百张客户标签表同时合并的需求。

2、数据量大:由于银行客户量大,每个标签表的记录数都在千万级,在业务较大的银行甚至上亿,数据量非常大。

3、数据量分布较平均:每个客户标签表的数据量差不多,不存在表之间数据量差别很大的情况。

经过申请人的研究测试,以上传统数据关联技术所使用的算法在解决“快速合并大量客户标签表”这一客户需求时,存在以下难点:

1、客户标签表记录数在千万级,不适合Nested Loops Join进行嵌套循环计算。

2、客户标签表都是大量无序数据,不适合Merge Join的场景。

3、客户标签表数据量都很大,不适合全部加载进内存进行计算处理。

4、基于HadoopHive的数据表Join以map-reduce任务的方式实现,多表Join时,前面的表会缓存在reducer的内存中,大数据量的场景下容易产生内存溢出的问题。

因此,由上可知,现有技术在解决大数据集的数据并行合并处理问题时,普遍存在占用大量的系统资源,形成CPU、内存和磁盘IO等的处理瓶颈,使得数据合并过程非常缓慢,甚至引起系统宕机,无法得到正确合并结果的问题。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东奡风科技股份有限公司,未经广东奡风科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911401436.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top