[发明专利]基于分布式集群的数据处理方法与系统有效
申请号: | 201711079128.1 | 申请日: | 2017-11-06 |
公开(公告)号: | CN107943615B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 王少鹏;张展国;贺彪;李洪普;郭祥汝;杨迎春;丁博;张晓波;茹东武;岳振亚;徐大青 | 申请(专利权)人: | 许继集团有限公司;国家电网公司;许昌许继软件技术有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F16/27 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 崔旭东 |
地址: | 461000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 集群 数据处理 方法 系统 | ||
本发明涉及基于分布式集群的数据处理方法与系统,同个数据分区下的所有数据块的各个备份数据中,以数据分区为单位,第一个备份数据存储在所在的数据节点内,其他各备份数据分别存储在其他数据节点中数据分区最少的两个数据节点内,分别称为第一和第二备份节点;当数据分区服务器发生宕机或不提供服务时,转移数据分区到数据分区较少的数据节点内。在发生节点故障导致分区转移后,为转移后的分区提供服务的分区服务器仍从本地获取数据,而不从通过网络从其他节点获取数据,实现数据分区不通过网络仍能访问数据,提高分区服务器节点故障后的分布式数据库的访问效率,解决了分布式数据库除了主压缩方法以外缺乏提高本地化率手段的问题。
技术领域
本发明涉及基于分布式集群的数据处理方法与系统。
背景技术
随着大数据技术的飞速发展,分布式集群的规模被不断的扩展,集群中的数据节点也在不断的增多,集群中发生故障转移的概率也就越来越大。如何确保在发生故障转移后集群能够快速且高效的继续提供服务成为分布式集群工作者所关注的重要方面。同样在故障转移之后能够保证集群提供的服务性能也是亟待解决的问题。
分布式数据库采用数据分区来管理智能电表中的数据,数据分区底层使用分布式文件系统来存储数据。通常情况下,一个节点包括有若干个数据分区,每个数据分区中包括有若干个数据块。分布式文件系统默认每个数据块有三个备份,由于分布式文件系统客户端本身的特性问题,数据分区所在的节点作为一个分布式文件系统客户端存放数据,所以第一份备份的所有文件都在本节点存储,这样也就能保证初始创建的数据分区的本地化率属性为1。但是第二和第三份备份的所有块是散乱的存放在不同的节点上,一旦数据分区发生了转移,数据分区访问本身数据的时候大部分的数据将会通过网络传输从其他节点获取。虽然数据分区所在的节点上发生故障之后,能够快速的转移,从而不影响集群服务的正常运行。这种目前比较完善的故障转移有赖于分布式数据文件的备份机制以及数据分区的迁移策略。但目前的故障转移策略发生之后,仍然存在以下问题:数据写入时,数据块存储策略优先写本地,保证本地化率为1,宕机后数据分区转移,由于数据块随机散乱的存储,本地化率下降。且在主压缩定时任务完成之前,无法恢复到最初为1的状态。这样也就导致分区服务器获取数据不再通过本地就能获取所有的分区数据,增加网络传输的负载,从而访问效率下降。
发明内容
本发明的目的是提供一种基于分布式集群的数据处理方法,用以解决分区服务器节点故障后,数据分区转移导致数据本地化率降低的问题。本发明同时提供一种基于分布式集群的数据处理系统。
为实现上述目的,本发明的方案包括一种基于分布式集群的数据处理方法,同个数据分区下的所有数据块的各个备份数据中,以数据分区为单位,第一个备份数据存储在所在的数据节点内,其他各备份数据分别存储在其他数据节点中数据分区最少的两个数据节点内,分别称为第一备份节点和第二备份节点;当数据分区服务器发生宕机或不提供服务时,转移数据分区到第一备份节点和第二备份节点中数据分区较少的数据节点内。
首先,除了第一个备份数据存储在所在的数据节点内,其他各备份数据分别存储在其他数据节点中数据分区最少的两个数据节点内,把数据分区中各备份数据完整不发散地对应存储在不同的数据节点上,能够在发生故障转移之后各节点的数据负载尽量均衡。并且,当数据分区服务器发生宕机或不提供服务时,转移数据分区到第一备份节点和第二备份节点中数据分区较少的数据节点内,即选择其中一个数据分区较少的节点作为迁移目标,保证迁移之后本地化率仍然为1,在发生节点故障导致分区转移后,为转移后的分区提供服务的分区服务器仍从本地获取数据,而不从通过网络从其他节点获取数据,实现数据分区不通过网络仍能访问数据,提高分区服务器节点故障后的分布式数据库的访问效率,解决了分布式数据库除了主压缩方法以外缺乏提高本地化率手段的问题。
在数据分区转移之后,在没有当前数据分区备份数据的各数据节点中找到数据分区最少的数据节点,作为补全目标节点,以数据分区为单位将当前数据分区的所有数据块的备份数据存储到所述补全目标节点内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于许继集团有限公司;国家电网公司;许昌许继软件技术有限公司,未经许继集团有限公司;国家电网公司;许昌许继软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711079128.1/2.html,转载请声明来源钻瓜专利网。