[发明专利]一种web图的索引数据压缩方法有效
申请号: | 201810921025.3 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109255090B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 王芳;冯丹;张永选 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/901 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 索引 数据压缩 方法 | ||
1.一种web图的索引数据压缩方法,其特征在于,索引数据包含初始位移和初始度数,分别存放在初始位移数组和初始度数数组,该方法包括以下步骤:
S1.压缩索引数组,用于存放压缩后的索引数据,将邻接列表数组压缩后的web图的待压缩的索引数据划分为包含数百到数千个节点的等长的索引数据块,索引数据块的元数据被存放于块索引数组,每个块索引数组包含参考位移域、起始下标域、位移差值码字长度域、度数码字长度域,分别用于存放参考位移、当前索引数据块的压缩后的数据在压缩索引数组中的起始下标、位移差值码字的长度、度数码字的长度;
S2.对于当前索引数据块,将压缩索引数组的当前第一个尚未存入数据的空闲单元的下标放入块索引数组中起始下标域内,将当前索引数据块内第一个初始位移的码字放入块索引数组的参考位移域内;
S3.对于当前索引数据块,基于当前索引数据块内的初始度数码字最大值确定当前索引数据块度数码字的长度;
S4.将当前索引数据块度数码字的长度放入块索引数组的度数码字长度域内,将当前索引数据块内第一个初始度数的码字存入压缩索引数组中;
S5.对于当前索引数据块,计算当前索引数据块内每个剩余的初始位移码字和参考位移码字之间的位移差值码字,基于位移差值码字最大值确定当前索引数据块的位移差值码字的长度;
S6.将当前索引数据块的位移差值码字的长度放入块索引数组的位移差值码字长度域内,将当前索引数据块内剩下的初始度数码字和位移差值码字交叉放入压缩索引数组中;
S7.重复步骤S2-S6,直至所有的索引数据块都被压缩。
2.如权利要求1所述的索引数据压缩方法,其特征在于,邻接列表数组采用变长编码进行压缩。
3.如权利要求2所述的索引数据压缩方法,其特征在于,变长编码为vByte。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的web图的索引数据压缩方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810921025.3/1.html,转载请声明来源钻瓜专利网。