[发明专利]数据入库的方法、装置和设备有效
申请号: | 201710175956.9 | 申请日: | 2017-03-21 |
公开(公告)号: | CN108628898B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 张琳;冯明 | 申请(专利权)人: | 中国移动通信集团河北有限公司;中国移动通信集团公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/174;H03M7/40 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 吴崇 |
地址: | 050021 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 入库 方法 装置 设备 | ||
一种数据入库的方法、装置和设备,包括:启动包括快速排序算法的高速哈夫曼Huffman压缩算法对写入数据进行第一次数据压缩生成第一次压缩文件;第一次压缩文件写入Hbase数据库表后,调用二重压缩算法实现对第一次压缩文件的第二次数据压缩,输出第二次压缩文件;基于第二次压缩文件实现Hadoop分布式文件系统HDFS数据入库。采用本发明实施例后,能够减轻网络及磁盘的IO压力,保证数据入库性能。
技术领域
本发明涉及计算机领域,尤其涉及一种数据入库的方法、装置和设备。
背景技术
据互联网数据中心(IDC)多年的研究结果表明,全球数据量大约每2年翻一番,每年产生的数据量按指数增长,数据增速符合摩尔定律,预计到2020年,全球总数据量将达到35ZB。如何对这些海量数据进行有效采集、加载、分析和处理已成为大数据应用的一个重要环节及基础。
为实现海量数据的快速处理,一个重要前提是实现海量数据的快速入库,然而随着数据体量越来越庞大,数据入库环节对网络及磁盘的IO性能压力急剧增加,在现有网络及磁盘IO技术性能瓶颈下,如何提升大数据入库性能是摆在技术人员面前的难题。
Hbase是Hadoop核心子项目,它是基于分布式文件系统(HDFS)上面向列的分布式数据库系统,非常擅长实时随机读写大规模数据集。但是随着Hbase入库数据量越来越大,入库性能越来越成为企业、开发人员需要解决的难题。
现有技术中,当前解决Hbase入库性能的主流解决方案可以归纳为三大类:
方案一是对Hbase客户端进行配置参数调优,基本原理是在Client端数据积累到设置阈值后再提交Region Server,此方法可有效减少RPC连接次数。
方案二是在Hbase服务器端配置RPC Handler数量参数。Hbase Region Server通过RPC Handler接收外部请求并进行处理,此方法通过提升RPC Handler数量可以在一定程度上提高Hbase入库请求接收能力(Handler数量有限制,依赖节点硬件)。
方案三是数据压缩,常用Hbase数据压缩算法包括Gzip、LZO以及SNAPPY。
上述三种解决方案在实际应用中都会被逐层采纳使用。其中方案一和方案二的使用效果均与Hbase自身产品版本以及Handler数量相关,能提升的性能较为固定。而方案三提到的常用Hbase数据压缩算法,虽然在实际生产项目中也经常会使用,但是这三种数据压缩算法适用的应用场景不尽相同,算法本身也具备一些不同的局限性。在使用GZIP、LZO、Zippy/Snappy中任意一种压缩算法进行工程实践时,都会不可避免遇到网络及磁盘的IO压力大从而导致出现入库性能受影响的问题。
综上,现有技术中存在以下技术问题:由于网络及磁盘的IO压力大影响数据入库性能。
发明内容
本发明实施例提供了一种数据入库的方法,能够减轻网络及磁盘的IO压力,保证数据入库性能。
本发明实施例还提供了一种数据入库的装置,能够减轻网络及磁盘的IO压力,保证数据入库性能。
本发明实施例还提高了一种设备,能够减轻网络及磁盘的IO压力,保证数据入库性能。
一种数据入库的方法,包括:
启动包括快速排序算法的高速哈夫曼Huffman压缩算法对写入数据进行第一次数据压缩生成第一次压缩文件;
第一次压缩文件写入Hbase数据库表后,调用二重压缩算法对第一次压缩文件进行第二次数据压缩,输出第二次压缩文件;
基于第二次压缩文件实现Hadoop分布式文件系统HDFS数据入库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团河北有限公司;中国移动通信集团公司,未经中国移动通信集团河北有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710175956.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置