[发明专利]一种基于HBase的列存储压缩方法在审
| 申请号: | 201810130781.4 | 申请日: | 2018-02-08 |
| 公开(公告)号: | CN108319714A | 公开(公告)日: | 2018-07-24 |
| 发明(设计)人: | 芦天亮;孙靖超;杜彦辉;蔡满春 | 申请(专利权)人: | 中国人民公安大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H03M7/30 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 李建华 |
| 地址: | 100076 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 列存储 压缩方式 列数据 统计量 压缩 读取 特征分量 压缩效率 重新排序 相似度 存储 统计 | ||
1.一种基于HBase的列存储压缩方法,其特征在于,包括以下步骤:
从HBase读取各列数据,对各列数据进行重新排序并存储于各区中;
统计随机块的统计量以计算各区之间的相似因子S,并判断列分布均匀或离散;
若分布均匀,则采用混级列压缩方式;若分布离散,则采用混级区压缩方式。
2.根据权利要求1所述的基于HBase的列存储压缩方法,其特征在于,所述相似因子S为判断区间相似度的定义量,通过两区的统计量T特征分量的绝对差值得到。
3.根据权利要求1或2所述的基于HBase的列存储压缩方法,其特征在于,在对各列数据进行重新排序时,各列信息均存储于各区由HFile组成的StoreFile中。
4.根据权利要求3所述的基于HBase的列存储压缩方法,其特征在于,首先将列拆为不同的表,对列值进行排序,对排序后的列生成新表的复合行健采用<columnID>_<rowID>_<Row-key>格式规则进行设计。
5.根据权利要求3所述的基于HBase的列存储压缩方法,其特征在于,混级列压缩方式的压缩算法采用游程编码,位向量编码,WAH编码,前缀编码,增量编码和改进的LZO。
6.根据权利要求1所述的基于HBase的列存储压缩方法,其特征在于,基于排序的列区混合压缩策略包括如下步骤:
Step1从HBase读入各列数据。
Step2对各列数据进行排序,并对各列数据按照指定格式进行存储。
Step3随机抽取列中10区统计特征统计量Ti={q2,q3,q4,q5,q6,q7},i∈[1,10]。
Step4判断各列数据分布特性,根据数据分布特性将数据用混级区压缩策略(HybridSector-Based Compression)和混级列压缩策略(Hybrid Column-Based Compression)分别进行存储。
Step5各列数据根据分配的不同压缩策略进行压缩。
Step6将压缩数据存储到HDFS中。
7.根据权利要求6所述的基于HBase的列存储压缩方法,其特征在于,混级区压缩策略包括:
Step1令i=1;
Step2统计Ti={q1,q2,q3,q4,q5,q6};
Step3若i=1,跳转Step4,否则跳转Step3;
Step4通过相似因子S计算与上一区块的相似度,若相似度高,mi=mi-1,否则跳转统计Ti={q1,q2,q3,q4,q5,q6},跳转Step5;
Step5对数据块使用基于XGBoost的策略选择方法;
Step6如块i不是最后一个块,i=i+1,跳到Step3;
Step7返回压缩策略向量Ms。
8.根据权利要求6所述的基于HBase的列存储压缩方法,其特征在于,混级列压缩策略包括:
输入:待压缩列数据
输出:压缩策略m
Step1统计特征统计量Tc={q1,q2,q5,q6,q7};
Step2对基数q进行判断,如小于阈值,m=WAH编码,跳转Step6,如大于阈值,跳转Step3;
Step3判断文本类型t,如是数值,m=增量压缩编码,跳转Step6,如是文本,跳转Step4;
Step4判断数据倾斜,如数据有明显倾斜,m=前缀编码,跳转Step6,如无明显倾斜,跳转Step5;
Step5根据使用频度l,将压缩算法分为改进的LZO和不压缩,若使用频度大m=不压缩,跳转最后一步,若使用频度小,m=改进的LZO,跳转Step6;
Step6返回压缩策略m。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民公安大学,未经中国人民公安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810130781.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于互联网的电子书处理方法
- 下一篇:针对多维整值型数据集的平行坐标改进方法





