[发明专利]一种基于HBase的列存储压缩方法在审

专利信息
申请号: 201810130781.4 申请日: 2018-02-08
公开(公告)号: CN108319714A 公开(公告)日: 2018-07-24
发明(设计)人: 芦天亮;孙靖超;杜彦辉;蔡满春 申请(专利权)人: 中国人民公安大学
主分类号: G06F17/30 分类号: G06F17/30;H03M7/30
代理公司: 北京冠和权律师事务所 11399 代理人: 李建华
地址: 100076 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 列存储 压缩方式 列数据 统计量 压缩 读取 特征分量 压缩效率 重新排序 相似度 存储 统计
【权利要求书】:

1.一种基于HBase的列存储压缩方法,其特征在于,包括以下步骤:

从HBase读取各列数据,对各列数据进行重新排序并存储于各区中;

统计随机块的统计量以计算各区之间的相似因子S,并判断列分布均匀或离散;

若分布均匀,则采用混级列压缩方式;若分布离散,则采用混级区压缩方式。

2.根据权利要求1所述的基于HBase的列存储压缩方法,其特征在于,所述相似因子S为判断区间相似度的定义量,通过两区的统计量T特征分量的绝对差值得到。

3.根据权利要求1或2所述的基于HBase的列存储压缩方法,其特征在于,在对各列数据进行重新排序时,各列信息均存储于各区由HFile组成的StoreFile中。

4.根据权利要求3所述的基于HBase的列存储压缩方法,其特征在于,首先将列拆为不同的表,对列值进行排序,对排序后的列生成新表的复合行健采用<columnID>_<rowID>_<Row-key>格式规则进行设计。

5.根据权利要求3所述的基于HBase的列存储压缩方法,其特征在于,混级列压缩方式的压缩算法采用游程编码,位向量编码,WAH编码,前缀编码,增量编码和改进的LZO。

6.根据权利要求1所述的基于HBase的列存储压缩方法,其特征在于,基于排序的列区混合压缩策略包括如下步骤:

Step1从HBase读入各列数据。

Step2对各列数据进行排序,并对各列数据按照指定格式进行存储。

Step3随机抽取列中10区统计特征统计量Ti={q2,q3,q4,q5,q6,q7},i∈[1,10]。

Step4判断各列数据分布特性,根据数据分布特性将数据用混级区压缩策略(HybridSector-Based Compression)和混级列压缩策略(Hybrid Column-Based Compression)分别进行存储。

Step5各列数据根据分配的不同压缩策略进行压缩。

Step6将压缩数据存储到HDFS中。

7.根据权利要求6所述的基于HBase的列存储压缩方法,其特征在于,混级区压缩策略包括:

Step1令i=1;

Step2统计Ti={q1,q2,q3,q4,q5,q6};

Step3若i=1,跳转Step4,否则跳转Step3;

Step4通过相似因子S计算与上一区块的相似度,若相似度高,mi=mi-1,否则跳转统计Ti={q1,q2,q3,q4,q5,q6},跳转Step5;

Step5对数据块使用基于XGBoost的策略选择方法;

Step6如块i不是最后一个块,i=i+1,跳到Step3;

Step7返回压缩策略向量Ms

8.根据权利要求6所述的基于HBase的列存储压缩方法,其特征在于,混级列压缩策略包括:

输入:待压缩列数据

输出:压缩策略m

Step1统计特征统计量Tc={q1,q2,q5,q6,q7};

Step2对基数q进行判断,如小于阈值,m=WAH编码,跳转Step6,如大于阈值,跳转Step3;

Step3判断文本类型t,如是数值,m=增量压缩编码,跳转Step6,如是文本,跳转Step4;

Step4判断数据倾斜,如数据有明显倾斜,m=前缀编码,跳转Step6,如无明显倾斜,跳转Step5;

Step5根据使用频度l,将压缩算法分为改进的LZO和不压缩,若使用频度大m=不压缩,跳转最后一步,若使用频度小,m=改进的LZO,跳转Step6;

Step6返回压缩策略m。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民公安大学,未经中国人民公安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810130781.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top