[发明专利]一种数据同步的方法和装置在审
| 申请号: | 201710750922.8 | 申请日: | 2017-08-28 |
| 公开(公告)号: | CN107609061A | 公开(公告)日: | 2018-01-19 |
| 发明(设计)人: | 李贵荣;黄承松;夏里峰;宋书俊 | 申请(专利权)人: | 武汉奇米网络科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹,吴欢燕 |
| 地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 同步 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种数据同步的方法和装置。
背景技术
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,能实现在任意的数据系统之间的数据同步。
为了解决异构数据源之间数据同步的问题,DataX将复杂的网状数据同步链路变成了星型数据同步链路,DataX作为中间传输载体负责连接各种数据源之间的数据同步。通常,安装了DataX的终端作为任务机负责接收源端的数据并发送至目的端,数据传输过程在任务机内单进程完成,通过任务机的内存操作,无需读写磁盘。
将单个的终端作为任务机,一方面,由于数据传输过程在单进程内完成,通过任务机的内存实现数据的传输,当DataX同时执行多个数据传输任务时,通常会出现单机内存不足的问题;另一方面,由于每一数据传输任务通常需要进行海量数据的传输,而单个终端作为任务机时存在网络带宽的限制,不能满足同时执行多个数据传输任务时对网络传输速度的需求;由此影响数据同步的效率。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明提供一种数据同步的方法和装置。
根据本发明的一个方面,提供一种数据同步的方法,包括:将数据同步任务列表上传到分布式文件系统,数据同步任务列表包含从源端到每一目的端的数据传输任务;将DataX上传至Hadoop集群中的每一节点;通过MapReduce从数据同步任务列表获取每一数据传输任务的数据,并将每一数据传输任务的数据逐一传入到Hadoop集群中不同节点的DataX;通过MapReduce启动Hadoop集群中不同节点的DataX,通过Hadoop集群中不同节点的DataX实现从源端到每一目的端的数据传输,以完成从源端到每一目的端的数据同步。
其中,将数据同步任务列表上传到分布式文件系统之前,还包括:获取源端的地址信息和数每一目的端的地址信息;根据源端的地址信息和每一目的端的地址信息,确定数据同步任务列表。
其中,根据源端的地址信息和每一目的端的地址信息,确定数据同步任务列表,包括:根据DataX任务配置文件的格式,将源端的地址信息和每一目的端的地址信息依次写入到数据同步任务列表。
其中,将DataX上传至Hadoop集群中的每一节点之前,还包括:获取源端的数据类型信息和每一目的端数据类型信息;根据源端的数据类型信息和每一目的端的数据类型信息,配置DataX。
其中,根据源端的数据类型信息和每一目的端的数据类型信息,配置DataX,包括:根据源端的数据类型信息,添加DataX的数据读入模块的插件,以使DataX支持对源端的数据类型的读入;根据每一目的端的数据类型信息,添加DataX的数据写出模块的插件,以使DataX支持对每一目的端的数据类型的写出。
其中,通过MapReduce从数据同步任务列表获取每一数据传输任务的数据,包括:根据每一数据传输任务的数据格式,定制MapReduce的InputFormat类和RecordReader类;通过MapReduce的InputFormat类,划分数据同步任务列表的数据,并通过MapReduce的RecordReader类,依次读取每一数据传输任务的数据。
其中,通过MapReduce启动Hadoop集群中不同节点的DataX,通过Hadoop集群中不同节点的DataX实现从源端到每一目的端的数据传输,包括:根据Hadoop集群中不同节点的DataX对应的存储路径,通过MapReduce的Mapper类启动Hadoop集群中不同节点的DataX,以使得每一DataX根据源端的地址信息和目的端的地址信息,将源端的数据传输至目的端。
本发明的另一方面,提供一种数据同步的装置,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行上述的方法。
本发明的又一方面,提供一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使计算机执行上述的方法。
本发明的又一方面,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机程序,该计算机程序使计算机执行上述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉奇米网络科技有限公司,未经武汉奇米网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710750922.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:资源推荐方法及装置
- 下一篇:应用于终端的信息处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





