[发明专利]一种基于字典的位片索引压缩方法有效
申请号: | 201810716805.4 | 申请日: | 2018-07-03 |
公开(公告)号: | CN108932738B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 刘晓光;刘欣瑀;王刚;张瞾华 | 申请(专利权)人: | 南开大学 |
主分类号: | G06T9/00 | 分类号: | G06T9/00 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 字典 索引 压缩 方法 | ||
一种基于字典的位片索引压缩方法和优化策略,适用于以BitFunnel为代表的0/1位片索引结构。本发明的方法包括:1、文档重排:以块大小为间隔根据索引列中比特1的密度重排文档以期增加块间重复度。2、部分压缩:选取部分查询低频访问行进行压缩。3、字典压缩:将索引划分成块,将一个全1比特块和索引中高频出现块存入字典。对出现在字典中的块用更少比特位的块编号替代;对未出现在字典中的块用字典中的最近似块的编号替代(会导致查询请求存在误称结果但保证不丢解)。本发明适用于信息检索领域位片索引压缩的场景中。本发明可显著提高索引压缩效果,且不会造成较大的解压延迟,对搜索引擎系统的优化有很重要的意义。
【技术领域】
本发明属于搜索引擎中的以BitFunnel为代表的位片索引的压缩技术领域,特别涉及对于位片索引的一种基于字典的压缩方法和部分压缩、文档重排等的优化策略。本发明同样适用于信息检索领域其他类似位图的位片索引结构压缩。
【背景技术】
在如今科技高速发展的时代,互联网已成为人们生活中必不可少的一部分。而搜索引擎也成为最重要的互联网入口。它使用网络爬虫等工具,定期扒取互联网的网页内容,在重新组织、存储后,为用户提供检索服务。现代商用搜索引擎系统主要包括网络服务器、索引服务器、文档服务器三大部分。网络服务器用于接收用户的查询,并将查询提交给索引服务器。索引服务器在接收到查询后,对查询词涉及到的索引进行访问、缓存、求交等操作来得到包含查询词的文档编号,然后对其按查询相关度进行排序并将K个最高分文档(topK)的编号返回网络服务器。接下来网络服务器将文档编号和查询交由文档服务器生成包含查询词的摘要返回给用户。
在现有的搜索引擎系统中,索引的压缩解压求交是最为重要的部分之一,直接影响着查询效率和用户体验。对索引进行压缩不仅可以节约存储空间,减少存储设备的开销,在查询过程中由于同等大小文件包含更多的压缩信息,所以索引压缩还可增加磁盘到内存的吞吐率以及增加cache命中率,从而提升查询效率。索引压缩方案有两个主要的评价指标,一方面是压缩率,直接体现压缩效果;另一方面是解压时间,关乎查询效率。搜索引擎会根据实际需求选择合适的压缩方案平衡压缩率和解压时间。
2017年微软提出了一种新的索引位片结构——BitFunnel。其索引是一种基于Bloom Filter的类似于位图的位片索引结构。其中每一列代表一篇文档,每一行代表一个或多个词在文档上的映射,词出现在文档中置1,否则置0。由于其应用了Bloom Filter,查询处理可能得到真实解之外的解——误称(false positive)。由于其采用按位运算替代传统倒排索引的比较判断,减少了分支预测失败的可能性,所以有着很高的查询效率,在未来应用空间巨大。具体的索引结构如图2所示。然而,类似于位图的结构导致存储开销相比于倒排索引大很多。
针对上述应用场景,目前存在两种解决方案——算术编码和位图压缩。现有的针对倒排索引的算术编码压缩方案更偏重于整数压缩,希望被压缩的序列单调或者数值很小,所以不适用于BitFunnel索引结构。而传统的针对位图的压缩方法主要采用run-length编码,这需要数据中有大规模连续0或连续1,而BitFunnel结构也难以保证满足这一条件。
【发明内容】
为解决上述问题,区别于传统的利用run-length的压缩方法,本发明提出了一种基于字典的位片索引压缩方法,无需较多连续的0/1序列即可达到较好的压缩效果,更适合BitFunnel索引。具体的将BitFunnel索引中重复度较高的块用更少比特位的编号替代从而实现压缩的目的,字典保存重复块到编号的映射。
本发明提供的基于字典的位片索引压缩方法(和对压缩的优化策略),参照图1,其主要方法包括:
步骤1(S1),以块大小为间隔根据索引中比特1的列密度重排文档;
步骤2(S2),根据查询数据集特征自定义阈值选定一部分查询访问低频行进行压缩;
步骤3(S3),对S2选定的压缩行进行字典压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810716805.4/2.html,转载请声明来源钻瓜专利网。