[发明专利]一种数据分布式存储方法和系统在审

专利信息
申请号: 201410742842.4 申请日: 2014-12-05
公开(公告)号: CN104462358A 公开(公告)日: 2015-03-25
发明(设计)人: 李铭轩 申请(专利权)人: 中国联合网络通信集团有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 王康;栗若木
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 分布式 存储 方法 系统
【说明书】:

技术领域

发明涉及大数据存储领域,尤其涉及一种数据分布式存储方法和系统。

背景技术

随着大数据技术的发展,尤其是Hadoop等技术的流行,对数据存储和处理提出了更高的要求。现有的数据分布式存储方法,先通过物理分块的方式将原始数据按照预设的固定大小(比如64M)分割成多个数据块,如图1-a所示;然后将每个原数据块进行多备份(比如每个数据块备份3份),如图1-b所示;最后将原数据块和备份数据分别存储,并且每个备份数据存储在不同的存储节点上。

现有的数据分布式存储方法在分割原始数据时,往往由技术人员设置每个分割数据块的大小,随着数据存储规模的增大,不仅费时、效率低,而且也增加了人工操作失误的概率,并且上述分割数据块的大小一经确定后,在数据分布式存储过程中固定不变。此外,随着数据存储规模的增大,用于存储备份数据的存储节点数目也会非常巨大,存储空间占用率高。

将过上述方法对数据进行存储后,,现有技术由一个数据节点(名称节点,namenode)对存储节点存储的原数据块和备份数据进行管理和调度,将原数据块和备份数据分配到不同的处理单元,由不同的处理单元根据上层需求对数据进行处理,再将不同处理单元的处理结果统一汇聚后输出,如图1-c所示,图中每个处理单元中的MAP表示针对不同存储数据的映射关系,reduce单元表示集群协作处理。这种由单一数据节点集中管理和调度的方式突出了该单一数据节点的重要性,如果该数据节点出现宕机,直接造成数据管理和调度失序。

发明内容

本发明提供了一种数据分布式存储方法和系统,以解决如何避免人为确定原始数据分割大小的技术问题。

为解决上述技术问题,本发明提供了一种数据分布式存储方法,所述方法包括:

将数据经过小波变换后分解成低频分量和高频分量;

每次分解后,对分解出的低频分量和高频分量进行备份,对分解出的低频分量、高频分量和各自的备份数据进行分布式存储;

从存储的数据中挑选出低频分量和与之对应的高频分量进行数据处理。

可选地,所述将数据经过小波变换后分解成低频分量和高频分量,包括:

确定分解层数;

将数据进行小波变换分解成低频分量和高频分量后,判断是否达到所述分解层数,如果没有达到所述分解层数,继续将所述低频分量分解成低频分量和高频分量,直至达到所述分解层数。

可选地,所述每次分解后,对分解出的低频分量和高频分量进行备份,对分解出的低频分量、高频分量和各自的备份数据进行分布式存储,包括:

每次分解后,将分解出的低频分量存储在主节点上,对分解出的低频分量进行m1次备份,将备份的低频分量分别存储在m1个主备份节点上;将分解出的高频分量存储在付节点上,对分解出的高频分量进行m2次备份,将备份的高频分量存储在m2个付备份节点上;m1大于m2,m1和m2均为正整数。

可选地,所述将备份的低频分量分别存储在m1个主备份节点上,包括:

如果低频分量位于第n层,则将该低频分量的其中一个备份数据存储在存储第n-1层低频分量的备份数据的一个主备份节点上,n大于或等于2。

可选地,所述从存储的数据中挑选出低频分量和与之对应的高频分量进行数据处理,包括:

获取存储低频分量和高频分量的节点地址;

向存储低频分量的节点请求低频分量,向存储高频分量的节点请求该低频分量对应的高频分量;

获得低频分量和高频分量后,进行数据处理。

可选地,所述向存储低频分量的节点请求低频分量,向存储高频分量的节点请求该低频分量对应的高频分量,包括:

向主节点请求低频分量;

如果没有从主节点获取到低频分量,依次则向与该主节点对应的主备份节点请求低频分量,直至获取到低频分量;

向与所述主节点处于相同层的付节点获取高频分量,如果没有从付节点获取到高频分量,依次向与该付节点对应的备份节点请求高频分量,直至获取到高频分量。。

可选地,所述确定分解层数,包括:

设置初始分解层数N,N为大于或等于1的整数;

如果在对分解出的低频分量、高频分量和各自的备份数据进行分布式存储的过程中,监测到剩余存储空间达到预设门限,或者,在从存储的数据中挑选出低频分量和与之对应的高频分量进行数据处理的过程中,监测到数据处理进度迟缓,则减小分解层数;如果监测到所述剩余存储空间未达到预设门限并且所述数据处理进度不迟缓,则增加分解层数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410742842.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top