[发明专利]数据处理方法及装置在审
| 申请号: | 202110486492.X | 申请日: | 2021-04-30 |
| 公开(公告)号: | CN113177090A | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 董爱军;高帅;吴波;陈想;王磊 | 申请(专利权)人: | 中国邮政储蓄银行股份有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/28;G06F16/25 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
| 地址: | 100032*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 | ||
本发明公开了一种数据处理方法及装置。其中,该方法包括:根据配置文件,读取待同步数据并存储至预设内存结构中;在预设内存结构中,对待同步数据的数据列按照数据列的行键值进行排序,生成序列集合;根据待同步数据要同步的目标存储器,确定目标存储器中多个存储分区对应的行键值;根据序列集合中序列与行键值的对应关系,将待同步数据存储到目标存储器中。本发明解决了相关技术中的数据处理方法,对系统资源使用较大,无法精确化控制,导致对系统的负载较重的技术问题。
技术领域
本发明涉及数据控制领域,具体而言,涉及一种数据处理方法及装置。
背景技术
数据仓库hive中数据同步入分布式列式存储数据库hbase的常见方法有循环单条或者循环批量写入的方式。这种方式中,在面临数据量过大或者数据属性较多的情况时,常出现因为存储磁盘频繁读写操作或者集群资源不足以支撑高并发访问,导致同步过程耗时较长,占用系统资源严重,甚至会导致同步过程失败。
为此在针对海量(几亿数据、几十亿甚至几百亿)数据导入时,一种比较友好的方式是先生成hbase的数据格式存储文件--Hfile文件,然后通过批量数据文件加载工具bulkload的将文件加载入hbase。
但是传统的生成Hfile文件方式是基于MapReduce技术,这种技术下处理过程中资源使用较大,资源使用总量不可控制,系统负载重,磁盘读写速度较慢。且每次处理的逻辑都是独立的,每新增一部分数据同步需求,就需要重新开发,效率较低。
传统的生成Hfile文件方式是基于MapReduce技术,但是这种方式下处理过程中需要将待处理的数据,切分成数量较多的任务处理,每个任务独立申请资源,独立与磁盘交互。整体过程中资源使用较大,资源使用总量无法精确化控制,系统负载重。磁盘读写操作频繁,导致磁盘读写成为处理过程中的瓶颈。在测试过程中发现1TB以上的属性较多数据从hive同步hbase通常需要耗时在2小时以上。
每同步不同的数据源,都需要额外开发一套处理逻辑,没有抽象出共同点复用,软件开发成本较高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及装置,以至少解决相关技术中的数据处理方法,对系统资源使用较大,无法精确化控制,导致对系统的负载较重的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:根据配置文件,读取待同步数据并存储至预设内存结构中;在所述预设内存结构中,对所述待同步数据的数据列按照所述数据列的行键值进行排序,生成序列集合;根据所述配置文件,确定所述待同步数据要同步的目标存储器中多个存储分区对应的行键值;根据所述序列集合中序列与行键值的对应关系,将所述待同步数据存储到所述目标存储器中。
可选的,在所述预设内存结构中,对所述待同步数据的数据列按照所述数据列的行键值进行排序,生成序列集合包括:在所述预设内存结构中,对所述待同步数据进行转换,生成列名有序集合,其中,所述列名有序集合包括所述待同步数据中除指定为行键值的数据列之外的所有数据列的序列,所述序列包括所述数据列的列名以及所述数据列的数据记录对应的列值;根据所述列名有序集合中的行键值,对所述列名有序集合中的序列进行排序,生成序列集合。
可选的,根据配置文件,读取待同步数据并存储至预设内存结构中包括:根据所述配置文件,确定用于发送所述待同步数据的源装置和接收所述待同步数据的目标装置,其中,所述配置文件用于所述源装置和目标装置进行访问,所述配置文件包括所述源装置的标识,所述目标装置的标识,以及所述待同步数据所需的资源量;从所述源装置中获取所述待同步数据,将所述待同步数据存储至所述预设内存结构中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110486492.X/2.html,转载请声明来源钻瓜专利网。





