[发明专利]一种适用于大数据集的数据并行处理方法、装置及系统在审
申请号: | 201911401436.0 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111198847A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 张志聪;陈泽宁;陈涛;曾慧宇;周子岳 | 申请(专利权)人: | 广东奡风科技股份有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/182 |
代理公司: | 广州新诺专利商标事务所有限公司 44100 | 代理人: | 李小林 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 数据 并行 处理 方法 装置 系统 | ||
本发明提供了一种适用于大数据集的数据并行处理方法、装置及系统,通过以主数据集的主键列数据为基础进行分片信息的计算,并采用并行处理的方式对多个输入数据集进行分片及合并,可对大量满足条件的数据表同时进行合并,运行效率高,同时并行计算可以在多台服务器中均衡进行,避免单节点的数据处理瓶颈,通过对分片数量参数的设定即可控制整个分片的细度,具有运行资源可控、系统开销少的特点,在硬件配置较低的环境下也可以使用,不会出现内存溢出、系统宕机等问题。
技术领域
本发明属于数据处理技术领域,具体涉及一种适用于大数据集的数据并行处理方法、装置及系统。
背景技术
在当今大数据时代,数据变化快、数据量大、类型多样,企业不断面临新的数据处理挑战,以银行客户标签系统为例,随着业务用户对标签的理解不断深入、应用越来越广泛,客户标签增长非常快,从原来的几十个、几百个,不断增加到目前的几千个,这些标签来自大量分散的应用系统,迫切需要进行汇总,形成客户的统一数据视图,以更全面地了解客户。
基于以上业务需求,“快速合并大量客户标签表”成为系统设计开发中的关键问题。基于目前主流的数据处理技术,对此问题的解决方案是采用数据库表的关联(Join)操作,主流的数据表关联(Join)技术包括:基于传统单机RDBMS的数据库表Join,基于MPP数据库表Join,基于HadoopHive的数据表Join,基于Spark SQL的数据库表Join,这些数据表关联方法在下面统称为传统数据关联技术。
这些传统数据关联技术的所使用算法主要有三种:分别是Nested Loops Join,Merge Join和Hash Join,分别有各自适用的应用场景。Nested Loops Join是嵌套循环连接方式,适合主表数据量比较小的场景;Merge Join通常需要对数据表进行排序,适合存在排序索引的场景,如果是大量的无序数据,则会带来很大的排序开销;HashJoin适合两个表数据量差别比较大的场景,主要系统开销在CPU和内存,在系统资源充足的大多数情况下,性能会比其他方式都好,但如果数据量太大,会导致CPU和内存的瓶颈。
而“快速合并大量客户标签表”这一用户需求具有以下特点:
1、数据表多:存在数十张客户标签表甚至上百张客户标签表同时合并的需求。
2、数据量大:由于银行客户量大,每个标签表的记录数都在千万级,在业务较大的银行甚至上亿,数据量非常大。
3、数据量分布较平均:每个客户标签表的数据量差不多,不存在表之间数据量差别很大的情况。
经过申请人的研究测试,以上传统数据关联技术所使用的算法在解决“快速合并大量客户标签表”这一客户需求时,存在以下难点:
1、客户标签表记录数在千万级,不适合Nested Loops Join进行嵌套循环计算。
2、客户标签表都是大量无序数据,不适合Merge Join的场景。
3、客户标签表数据量都很大,不适合全部加载进内存进行计算处理。
4、基于HadoopHive的数据表Join以map-reduce任务的方式实现,多表Join时,前面的表会缓存在reducer的内存中,大数据量的场景下容易产生内存溢出的问题。
因此,由上可知,现有技术在解决大数据集的数据并行合并处理问题时,普遍存在占用大量的系统资源,形成CPU、内存和磁盘IO等的处理瓶颈,使得数据合并过程非常缓慢,甚至引起系统宕机,无法得到正确合并结果的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东奡风科技股份有限公司,未经广东奡风科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911401436.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置