[发明专利]一种面向Hadoop集群的数据同步方法在审
申请号: | 201710122295.3 | 申请日: | 2017-03-03 |
公开(公告)号: | CN108540511A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 杨佩;胡宏;王一清;罗慧;刘梅招;高海龙;朱力鹏;胡斌 | 申请(专利权)人: | 全球能源互联网研究院;国网江苏省电力公司;国家电网公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 102209 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 数据同步 数据块 校验和 传输 公钥 密钥 强弱 文件数据块 安全链接 差异数据 传输差异 对比文件 发送文件 接收数据 数据组成 私钥加密 同步请求 文件同步 私钥 加密 相等 删除 发送 安全 | ||
本发明提出了一种面向Hadoop集群的数据同步方法,包括在两个Hadoop集群间建立安全链接,集群A发送文件同步请求并发送自己的私钥给集群B,集群B用自己的公钥对集群A的私钥加密之后将加密获得密钥发送给集群A,集群A接收密钥并作为自己的公钥,继而建立了安全的连接。两个集群对文件数据块分别计算强弱校验和,在数据同步之前对比文件快的校验和数据,强弱校验和都相等的数据块则视为相同的文件file数据块,在文件同步传输时只传输差异的数据,相同的数据块不进行传输。接收数据的集群在接收到差异数据的同时将本地数据的差异想删除后添加从其他集群传输的数据组成新的数据。
技术领域
本发明涉及一种云计算技术存储系里中数据同步技术的数据同步方法,具体涉及一种面向Hadoop集群的数据同步方法。
背景技术
随着信息时代的告诉发展,整个社会正逐步进入“数字化”时代,全球数据持续以爆炸性速度增长,面对持续增长的海量数据对传统存储系统带来的新的挑战。这是一个信息爆炸的时代,互联网上的信息正在以几何级数的速度增长着。在这个大背景下,消耗CPU最多的计算逐渐从提升软件本身性能方面转移到了信息处理方面,从而各大厂商不得不面临着极大地挑战—他们需要从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量数据进行快捷高效的处理。而数据存储是数据管理工作的基石,所以如何进行大数据的存储并在不同的集群间对大数据的迁移时一个值得研究的问题。企业需要建立起高吞吐、高可靠性、和可扩展的存储系统。日常生产运营中,企业一般都会有很多个业务系统,在这种情况下,企业需要维护多个独立且相互之间各不相同的归档系统,大大增加了维护和管理的负担并导致系统整体可扩展性差。如果构建一个统一的数据存储平台作为多个业务系统的公共归档系统,那么所有业务系统的归档系统就可以整合为一个系统。
面临如此严峻的形式,我们该如何从大量数据中获取有价值的信息,并且对这些数据进行高效、精准的处理。Hadoop作为一个开源的能够对大量数据进行分布式处理的文件系统和并行计算编程模型。以Hadoop为大数据开发平台,利用其伪分布式集群形式,在以HDFS为代表的分布式文件存储系统下实现了大量数据的文件存储和读取。随着人们的需求不断的改变,各个大数据服务厂商之间需要在集群间对数据进行共享,这样能更好的提升服务质量。
两个集群之间需要传输数据,不能凭空地一个请求信息就立马对开始同步传输文件数据,这样的做法容易造成数据遗失等不安全的结果。
发明内容
为优化上述现有技术中的不足,本发明的目的是提供一种面向Hadoop集群的数据同步方法,综合考虑了集群间数据传输的安全因素,以及在需要传输文件时,判断两个集群间是否存储了文件的不同版本信息,进行校验和计算并计算出差异数据,进而只进行对差异数据的传输,从而达到节约网络带宽,提高数据传输速率同时提高服务质量的目的。
本发明的目的是采用下述技术方案实现的:
本发明提供一种面向Hadoop集群的数据同步方法,其改进之处在于,所述方法包括下述步骤:
Step1:集群在存储文件数据块时添加时间戳实现版本控制;
Step2:集群A向集群B之间首次需要数据同步时需要建立互信连接;
Step3:集群A产生一个随机密钥,用来自于集群B的公钥进行加密,将加密后的随机密钥发送给集群B;
Step4:集群B接受密文后用自己的私钥解密数据获得通信密钥,集群A向集群B间建立了安全的通信连接;
Step5:集群A向集群B同步文件file的文件信息以及在集群A中的索引信息;
Step6:集群B接收到来自集群A发送的关于新上传的文件file的信息,查询本地集群A是否有文件file的存储记录;
Step7:判断集群B中是否存储过集群A中传送过来的文件file的历史版本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全球能源互联网研究院;国网江苏省电力公司;国家电网公司,未经全球能源互联网研究院;国网江苏省电力公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710122295.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种云主机创建方法、装置及云服务系统
- 下一篇:网络云盘服务系统