[发明专利]一种数据同步的方法和装置在审

专利信息
申请号: 201710750922.8 申请日: 2017-08-28
公开(公告)号: CN107609061A 公开(公告)日: 2018-01-19
发明(设计)人: 李贵荣;黄承松;夏里峰;宋书俊 申请(专利权)人: 武汉奇米网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京路浩知识产权代理有限公司11002 代理人: 王莹,吴欢燕
地址: 430000 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 同步 方法 装置
【说明书】:

技术领域

发明涉及计算机技术领域,更具体地,涉及一种数据同步的方法和装置。

背景技术

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,能实现在任意的数据系统之间的数据同步。

为了解决异构数据源之间数据同步的问题,DataX将复杂的网状数据同步链路变成了星型数据同步链路,DataX作为中间传输载体负责连接各种数据源之间的数据同步。通常,安装了DataX的终端作为任务机负责接收源端的数据并发送至目的端,数据传输过程在任务机内单进程完成,通过任务机的内存操作,无需读写磁盘。

将单个的终端作为任务机,一方面,由于数据传输过程在单进程内完成,通过任务机的内存实现数据的传输,当DataX同时执行多个数据传输任务时,通常会出现单机内存不足的问题;另一方面,由于每一数据传输任务通常需要进行海量数据的传输,而单个终端作为任务机时存在网络带宽的限制,不能满足同时执行多个数据传输任务时对网络传输速度的需求;由此影响数据同步的效率。

发明内容

为了克服上述问题或者至少部分地解决上述问题,本发明提供一种数据同步的方法和装置。

根据本发明的一个方面,提供一种数据同步的方法,包括:将数据同步任务列表上传到分布式文件系统,数据同步任务列表包含从源端到每一目的端的数据传输任务;将DataX上传至Hadoop集群中的每一节点;通过MapReduce从数据同步任务列表获取每一数据传输任务的数据,并将每一数据传输任务的数据逐一传入到Hadoop集群中不同节点的DataX;通过MapReduce启动Hadoop集群中不同节点的DataX,通过Hadoop集群中不同节点的DataX实现从源端到每一目的端的数据传输,以完成从源端到每一目的端的数据同步。

其中,将数据同步任务列表上传到分布式文件系统之前,还包括:获取源端的地址信息和数每一目的端的地址信息;根据源端的地址信息和每一目的端的地址信息,确定数据同步任务列表。

其中,根据源端的地址信息和每一目的端的地址信息,确定数据同步任务列表,包括:根据DataX任务配置文件的格式,将源端的地址信息和每一目的端的地址信息依次写入到数据同步任务列表。

其中,将DataX上传至Hadoop集群中的每一节点之前,还包括:获取源端的数据类型信息和每一目的端数据类型信息;根据源端的数据类型信息和每一目的端的数据类型信息,配置DataX。

其中,根据源端的数据类型信息和每一目的端的数据类型信息,配置DataX,包括:根据源端的数据类型信息,添加DataX的数据读入模块的插件,以使DataX支持对源端的数据类型的读入;根据每一目的端的数据类型信息,添加DataX的数据写出模块的插件,以使DataX支持对每一目的端的数据类型的写出。

其中,通过MapReduce从数据同步任务列表获取每一数据传输任务的数据,包括:根据每一数据传输任务的数据格式,定制MapReduce的InputFormat类和RecordReader类;通过MapReduce的InputFormat类,划分数据同步任务列表的数据,并通过MapReduce的RecordReader类,依次读取每一数据传输任务的数据。

其中,通过MapReduce启动Hadoop集群中不同节点的DataX,通过Hadoop集群中不同节点的DataX实现从源端到每一目的端的数据传输,包括:根据Hadoop集群中不同节点的DataX对应的存储路径,通过MapReduce的Mapper类启动Hadoop集群中不同节点的DataX,以使得每一DataX根据源端的地址信息和目的端的地址信息,将源端的数据传输至目的端。

本发明的另一方面,提供一种数据同步的装置,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行上述的方法。

本发明的又一方面,提供一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使计算机执行上述的方法。

本发明的又一方面,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机程序,该计算机程序使计算机执行上述的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉奇米网络科技有限公司,未经武汉奇米网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710750922.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top