[发明专利]一种HBase加载数据的导入方法在审
申请号: | 201310584702.4 | 申请日: | 2013-11-20 |
公开(公告)号: | CN103617211A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 郭美思;王秀娟;吴楠 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hbase 加载 数据 导入 方法 | ||
1.一种HBase加载数据的导入方法,其特征在于:首先在Region预分配中,设置好集群中的环境及配置参数,然后根据编写确定Region数量的函数来创建HBase表,待Region预分配结束,利用分布式计算框架分析处理能力及并行计算的特点编写MapReduce程序将源数据生成Hfile文件,最后将用completebulkload命令完成数据的导入,将数据按照预定的格式导入到了HBase表。
2.根据权利要求1所述的一种HBase加载数据的导入方法,其特征在于:创建所述HBase表后,该表会在一个单独的Region中启动,所有插入的数据首先进入这个Region中,数据达到一个极限时被分裂为两个Region,分离的Region被分布到其他Region Server上,以达到集群中的负载均衡。
3.根据权利要求1所述的一种HBase加载数据的导入方法,其特征在于:在所述编写MapReduce程序中,MapReduce框架负责对数据进行划分,将文件的一个存储块Block作为一个划分,然后提取划分中的记录的键值对集合<K1,V1>作为Map输入,在指定的mapper类中将输入的行数据转换指定的格式, Map模块根据键值对转换行数据并生成row key,并指定列族名称及列的名称;在map方法中,建立Put对象,通过Put.add()函数将转换后的数据添加到Put对象中,调用context.write()方法将数据写到中间文件中;然后根据rowkey及Put对象生成中间键值对<rowkey,put>,并将中间结果写入本地磁盘;Reduce模块根据从Master获取中间结果的位置,通过远程接口从执行Map任务的TaskTracker的磁盘中读取数据并对数据写入前对列进行整理,符合预期的输出格式,从而得出最后的输出结果HFile文件。
4.根据权利要求1所述的一种HBase加载数据的导入方法,其特征在于:所述Region预分配是根据导入HBase的数据量及分布式集群的规模确定Region的个数,然后按数据量预先设计并分配好Region,可以大幅降低Region Split的次数, 甚至不Split,达到数据导入时负载均衡的目的。
5.根据权利要求3所述的一种HBase加载数据的导入方法,其特征在于:所述MapReduce编程框架,是得到HFile格式文件的处理过程,Map模块处理了根据数据格式得到合理设计rowkey,然后处理数据得到中间结果;在Reducer模块中,整理成合理的数据格式,最后将HFile文件输出到指定的输出路径中。
6.根据权利要求上述任一权利要求所述的一种HBase加载数据的导入方法,其特征在于,所述导入方法是通过编写MapReduce程序实现:首先在主函数中创建一个Job实例,设置该实例的输入路径、输出路径、mapper类、reducer类及map输出的key和value的类型,然后设置HBase的配置,再次,根据设置的配置建立HBase表,最后将输出设定为HFileOutputFormat即可生成HFile文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310584702.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置