[发明专利]一种云计算环境下的关系大数据的管理方法在审
申请号: | 201910883879.1 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110569310A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 李晓涛;金炯华;朱海平;倪明堂;黄培;张卫平;吴淑敏 | 申请(专利权)人: | 广东省智能机器人研究院 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/22;G06F16/28 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 罗晓林;杨桂洋 |
地址: | 523000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 大数据 分布式数据访问 分布式数据库 并行计算 底层模块 接口单元 上层模块 分布式存储 分布式索引 管理和存储 数据库集群 云计算环境 查询分析 处理效率 计算处理 计算模块 通讯连接 管理 存储 架构 优化 | ||
1.一种云计算环境下的关系大数据的管理方法,该管理方法基于MapReduce架构,包括以下步骤:
构建底层模块,底层模块为分布式数据库ChunkDB,构成ChunkDB数据库集群,用于接收、管理和存储各类型数据;
构建上层模块,上层模块为分布式数据访问接口单元,Hadoop集群,与分布式数据库ChunkDB通讯连接;
构建计算模块,构建基于ChunkDB并行计算单元和基于HDFS并行计算单元,与分布式数据访问接口单元连接,对相关数据进行计算处理。
2.根据权利要求1所述的云计算环境下的关系大数据的管理方法,其特征在于,所述分布式数据库ChunkDB接收到数据后对数据进行分块操作,按照设定的划分规则对数据表划分成若干个子表块,该若干个子表块分别存放到分布式数据库ChunkDB的不同节点,不同节点上的子表块为并行关系,并且子表块在不同节点上都是以表的形式独立存在。
3.根据权利要求2所述的云计算环境下的关系大数据的管理方法,其特征在于,所述分布式数据库ChunkDB对数据进行分块操作后,将数据进行存放,数据表以大小相同的子表块为存储单位存储到各个节点上,每一个子表块对应至少一个副本。
4.根据权利要求3所述的云计算环境下的关系大数据的管理方法,其特征在于,所述表子块采用哈希分布和轮询分布两种方式存放,使用哈希分布时,对每个子表块都进行编号,以分块的块编号id作为分布键,将分布键传递给哈希函数,得到每个子表块应当被存放的数据节点;
使用轮询分布时,将所有的数据节点按照设定的顺序进行排序,然后各个子表块按照顺序,一个一个对应到数据节点上进行存放,如果数据节点已经轮询一遍,那么重新从起点开始,继续轮流存放,直到所有子表块全部存放完毕为止;
子表块存放完毕后,将子表块的第一个副本存放在与该子表块所在节点同一机架的其他数据节点上,子表块的第二个副本存放到与该子表块所在节点不同机架的其他数据节点上。
5.根据权利要求4所述的云计算环境下的关系大数据的管理方法,其特征在于,所述分布式数据库ChunkDB包含Master节点,Master节点存储分布式数据库ChunkDB的所有元数据信息Metadata,Master节点是分布式数据库的管理者和维护者,用于存储数据的分块元数据信息和节点的信息管理。
6.根据权利要求5所述的云计算环境下的关系大数据的管理方法,其特征在于,所述分布式数据访问接口单元进行了数据访问接口的扩展,对MapReduce架构的DBInputFormat数据接口进行扩展,使MapReduce能够与分布式数据库存储单元ChunkDB相结合,实现并行地从关系型数据库中获取输入数据。
7.根据权利要求6所述的云计算环境下的关系大数据的管理方法,其特征在于,所述对MapReduce架构进行扩展,使MapReduce架构能够支持分布式数据库ChunkDB并具有兼容性,实现基于ChunkDB的MapReduce计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省智能机器人研究院,未经广东省智能机器人研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910883879.1/1.html,转载请声明来源钻瓜专利网。