[发明专利]一种HBase加载数据的导入方法在审
申请号: | 201310584702.4 | 申请日: | 2013-11-20 |
公开(公告)号: | CN103617211A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 郭美思;王秀娟;吴楠 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hbase 加载 数据 导入 方法 | ||
技术领域
本发明涉及HBase加载数据的导入方法。
技术背景
随着网络技术的飞速发展,数据量的急速增长,为了分析和利用这些庞大的数据资源,传统的技术已然遇到了巨大的障碍,无法胜任大数据分析的任务。而为了满足大数据分析的要求,Google提出了MapReduce技术,它是一种面向大规模数据分析处理和并行计算的编程模型。在大数据所需的技术中,分布式文件系统、分布式数据库等都是适用于大数据的技术。HBase是一种可扩展的、支持大规模的分布式数据库。它是利用Hadoop HDFS作为其文件存储系统。由于它具有良好的可扩展性、容错性,以及随机读取能力,支持MapReduce并行计算,被越来越多的公司所接受。但经研究发现,HBase中自带的数据导入工具有一定的局限性,它不能使用户完全控制数据加载过程,并且不能自定义数据加载的预期格式。因此,加载具有特定格式的HBase加载数据的导入方法是非常重要的。
目前HBase中自带的Bulk load支持将海量数据高效地装载入HBase中。Bulk load是通过一个MapReduce Job来实现的,通过Job直接生成一个HBase的内部HFile格式文件来形成一个特殊的HBase数据表,然后直接将数据文件加载到运行的集群中。使用bulk load功能最简单的方式就是使用importtsv 工具。importtsv 是从TSV文件直接加载内容至HBase的一个内置工具。它通过运行一个MapReduce Job,将数据从TSV文件中直接写入HBase的表或者写入一个HBase的自有格式数据文件。
尽管importtsv 工具在需要将文本数据导入HBase的时候十分有用,但是有一些情况,比如导入其他格式的数据,你会希望使用编程来生成数据,而MapReduce是处理海量数据最有效的方式。这可能也是HBase中加载海量数据唯一最可行的方法了。当然我们可以使用MapReduce向HBase导入数据,但海量的数据集会使得MapReduce Job也变得很繁重。若处理不当,则可能使得MapReduce的job运行时的吞吐量很小。
发明内容
本发明要解决的技术问题是:根据合理的设计HBase表中的Region数量,使预导入的数据均匀分配在集群中。再采用分布式计算框架MapReduce的编程模型重新实现了Map接口和Reduce接口来得到预期的特定格式的HFile文件,然后利用completebulkload工具将文件按照预期格式加载到HBase中。
在HBase中数据合并是一项频繁执行写操作任务,除非我们能够生成HBase的内部数据文件,并且直接加载。这样尽管HBase的写入速度一直很快,但是若合并过程没有合适的配置,也有可能造成写操作时常被阻塞。写操作很重的任务可能引起的另一个问题就是将数据写入了相同的族群服务器(region server),这种情况常出现在将海量数据导入到一个新建的HBase中。一旦数据集中在相同的服务器,整个集群就变得不平衡,并且写速度会显著的降低。因此,首先通过预分配Region,其主要目的是将HBase导入数据之前构建好集群,并能使导入的数据均匀分配在集群中。然后通过MapReduce程序产生特定的数据文件格式。最后将HFile文件直接加载到HBase中。上述方式要确保Region预分配的合理性、MapReduce程序设计及编写的合理性。该方法能提高导入效率,且支持并行计算,因此更为高效。
本发明所采用的技术方案为:
一种HBase加载数据的导入方法,首先在Region预分配中,设置好集群中的环境及配置参数,然后根据编写确定Region数量的函数来创建HBase表,待Region预分配结束,利用分布式计算框架分析处理能力及并行计算的特点编写MapReduce程序将源数据生成Hfile文件,最后将用completebulkload命令完成数据的导入,将数据按照预定的格式导入到了HBase表。这样可以提高导入效率。该加载数据的导入方法主要通过MapReduce模块来实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310584702.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置