[发明专利]一种数据的批量处理方法及系统在审
| 申请号: | 201810900974.3 | 申请日: | 2018-08-09 |
| 公开(公告)号: | CN109101621A | 公开(公告)日: | 2018-12-28 |
| 发明(设计)人: | 陈仲宇;尹涛;刘新阳;朱建兵 | 申请(专利权)人: | 中国建设银行股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 目标数据 切片数据 并行处理 多服务器 数据库 集群 加载 并行加载 处理流程 处理请求 处理效率 方式分配 资源限制 单表 单库 解析 并行 | ||
本发明公开了一种数据的批量处理方法,其特征在于,包括:当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;确定所述各个切片数据集中的每一个切片数据所属的表和数据库;对每一个数据库中的每一个表包含的各个切片数据进行并行处理。上述方法,将目标数据集中的目标数据通过分片的方式分配给了不同的数据库中的不同表,通过多服务器加载进行并行处理,避免了现有技术中,由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,处理效率低的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据的批量处理方法及系统。
背景技术
银行的信息技术IT(Information Technology)系统中通常涉及海量数据的存储与处理,每天全量或增量的数据档需要定时加载和处理,现有技术中,通过单库单表的方式集中加载和处理数据,无论数据档大小,通过调整服务器的存储空间大小,以批量方式始终往同一表里追加或更新数据。
发明人对现有的数据的批量处理方法进行研究发现,由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,在效率和性能上难以达到令人满意的效果。
发明内容
有鉴于此,本发明提供了一种数据的批量处理方法及系统,用以解决现有技术中由于是单库单表机制和资源限制,不能通过多服务器并行加载和处理,只能通过串行的方式来完成所有数据的加载和处理流程,在效率和性能上难以达到令人满意的效果的问题。具体方案如下:
一种数据的批量处理方法,包括:
当接收到对目标数据集的处理请求时,解析所述目标数据集包含的各个目标数据,确定每一个目标数据所属的集群;
并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集;
确定所述各个切片数据集中的每一个切片数据所属的表和数据库,其中,每一个数据库中包含至少一个表;
对每一个数据库中的每一个表包含的各个切片数据进行并行处理。
上述的方法,可选的,并行的将每一个集群中包含的各个目标数据进行切分得到各个切片数据集,包括:
获取与所述目标数据集对应的各个集群;
解析所述各个集群中包含的各个目标数据;
依据每一个目标数据的切分字段对其进行切分,得到各个切片数据;
采用哈希算法并行的计算每一个切片数据的哈希值;
依据每一个切片数据的哈希值进行划分得到所述各个切片数据集。
上述的方法,可选的,确定所述各个切片数据集中的每一个切片数据所属的表和数据库,包括:
针对每一个切片数据集,获取每一个切片数据的切片编号;
在对应的预设的映射关系对照表中依据每一个切片数据的切编号查找与其对应的表和数据库,其中,所述预设的映射关系对照表存储有表,数据库和切片编号的对应关系。
上述的方法,可选的,还包括:
当检测到对任一个数据库的调整请求时,对与所述调整请求对应的预设关系对照表进行调整。
上述的方法,可选的,对每一个数据库中的每一个表包含的各个切片数据进行并行处理,包括:
针对每一个切片数据,获取与其对应的临时区分表中的临时数据和数据分区表中的存量数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810900974.3/2.html,转载请声明来源钻瓜专利网。





