[发明专利]数据入库的方法、装置和设备有效

专利信息
申请号: 201710175956.9 申请日: 2017-03-21
公开(公告)号: CN108628898B 公开(公告)日: 2021-04-23
发明(设计)人: 张琳;冯明 申请(专利权)人: 中国移动通信集团河北有限公司;中国移动通信集团公司
主分类号: G06F16/182 分类号: G06F16/182;G06F16/174;H03M7/40
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 吴崇
地址: 050021 *** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 入库 方法 装置 设备
【说明书】:

一种数据入库的方法、装置和设备,包括:启动包括快速排序算法的高速哈夫曼Huffman压缩算法对写入数据进行第一次数据压缩生成第一次压缩文件;第一次压缩文件写入Hbase数据库表后,调用二重压缩算法实现对第一次压缩文件的第二次数据压缩,输出第二次压缩文件;基于第二次压缩文件实现Hadoop分布式文件系统HDFS数据入库。采用本发明实施例后,能够减轻网络及磁盘的IO压力,保证数据入库性能。

技术领域

本发明涉及计算机领域,尤其涉及一种数据入库的方法、装置和设备。

背景技术

据互联网数据中心(IDC)多年的研究结果表明,全球数据量大约每2年翻一番,每年产生的数据量按指数增长,数据增速符合摩尔定律,预计到2020年,全球总数据量将达到35ZB。如何对这些海量数据进行有效采集、加载、分析和处理已成为大数据应用的一个重要环节及基础。

为实现海量数据的快速处理,一个重要前提是实现海量数据的快速入库,然而随着数据体量越来越庞大,数据入库环节对网络及磁盘的IO性能压力急剧增加,在现有网络及磁盘IO技术性能瓶颈下,如何提升大数据入库性能是摆在技术人员面前的难题。

Hbase是Hadoop核心子项目,它是基于分布式文件系统(HDFS)上面向列的分布式数据库系统,非常擅长实时随机读写大规模数据集。但是随着Hbase入库数据量越来越大,入库性能越来越成为企业、开发人员需要解决的难题。

现有技术中,当前解决Hbase入库性能的主流解决方案可以归纳为三大类:

方案一是对Hbase客户端进行配置参数调优,基本原理是在Client端数据积累到设置阈值后再提交Region Server,此方法可有效减少RPC连接次数。

方案二是在Hbase服务器端配置RPC Handler数量参数。Hbase Region Server通过RPC Handler接收外部请求并进行处理,此方法通过提升RPC Handler数量可以在一定程度上提高Hbase入库请求接收能力(Handler数量有限制,依赖节点硬件)。

方案三是数据压缩,常用Hbase数据压缩算法包括Gzip、LZO以及SNAPPY。

上述三种解决方案在实际应用中都会被逐层采纳使用。其中方案一和方案二的使用效果均与Hbase自身产品版本以及Handler数量相关,能提升的性能较为固定。而方案三提到的常用Hbase数据压缩算法,虽然在实际生产项目中也经常会使用,但是这三种数据压缩算法适用的应用场景不尽相同,算法本身也具备一些不同的局限性。在使用GZIP、LZO、Zippy/Snappy中任意一种压缩算法进行工程实践时,都会不可避免遇到网络及磁盘的IO压力大从而导致出现入库性能受影响的问题。

综上,现有技术中存在以下技术问题:由于网络及磁盘的IO压力大影响数据入库性能。

发明内容

本发明实施例提供了一种数据入库的方法,能够减轻网络及磁盘的IO压力,保证数据入库性能。

本发明实施例还提供了一种数据入库的装置,能够减轻网络及磁盘的IO压力,保证数据入库性能。

本发明实施例还提高了一种设备,能够减轻网络及磁盘的IO压力,保证数据入库性能。

一种数据入库的方法,包括:

启动包括快速排序算法的高速哈夫曼Huffman压缩算法对写入数据进行第一次数据压缩生成第一次压缩文件;

第一次压缩文件写入Hbase数据库表后,调用二重压缩算法对第一次压缩文件进行第二次数据压缩,输出第二次压缩文件;

基于第二次压缩文件实现Hadoop分布式文件系统HDFS数据入库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团河北有限公司;中国移动通信集团公司,未经中国移动通信集团河北有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710175956.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top