[发明专利]一种基于字典的位片索引压缩方法有效
申请号: | 201810716805.4 | 申请日: | 2018-07-03 |
公开(公告)号: | CN108932738B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 刘晓光;刘欣瑀;王刚;张瞾华 | 申请(专利权)人: | 南开大学 |
主分类号: | G06T9/00 | 分类号: | G06T9/00 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于字典的位片索引压缩方法和优化策略,适用于以BitFunnel为代表的0/1位片索引结构。本发明的方法包括:1、文档重排:以块大小为间隔根据索引列中比特1的密度重排文档以期增加块间重复度。2、部分压缩:选取部分查询低频访问行进行压缩。3、字典压缩:将索引划分成块,将一个全1比特块和索引中高频出现块存入字典。对出现在字典中的块用更少比特位的块编号替代;对未出现在字典中的块用字典中的最近似块的编号替代(会导致查询请求存在误称结果但保证不丢解)。本发明适用于信息检索领域位片索引压缩的场景中。本发明可显著提高索引压缩效果,且不会造成较大的解压延迟,对搜索引擎系统的优化有很重要的意义。 | ||
搜索关键词: | 一种 基于 字典 索引 压缩 方法 | ||
【主权项】:
1.一种基于字典的位片索引压缩方法,其特征在于,所述方法包括:步骤1,以块大小为间隔根据索引中比特1的列密度重排文档;步骤2,根据查询数据集特征自定义阈值选定一部分查询访问低频行进行压缩;步骤3,对步骤2选定的压缩行进行字典压缩。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810716805.4/,转载请声明来源钻瓜专利网。