[发明专利]一种高效的倒排索引结构及组织方法有效
| 申请号: | 201210511478.1 | 申请日: | 2012-12-04 |
| 公开(公告)号: | CN103853772A | 公开(公告)日: | 2014-06-11 |
| 发明(设计)人: | 王弘蔚 | 申请(专利权)人: | 北京拓尔思信息技术股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100088 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 高效 索引 结构 组织 方法 | ||
技术领域
本发明涉及信息检索技术,具体地说,涉及全文检索系统中使用的高效倒排索引结构及组织方法。
背景技术
大数据时代的网络环境中,信息量和用户量呈爆炸式增长,给大规模信息检索系统准确高效的服务带来了压力和挑战。倒排索引是信息检索的核心,其存储结构及组织方式对信息检索性能的提升有很大影响。在改进检索算法的同时,人们也在努力优化倒排索引结构及其组织方式。
目前国内外针对倒排索引优化的研究,主要从以下三方面展开:(1)通过压缩技术减少索引在外存上的体积;(2)对倒排表内容的组织方式进行优化,减少需要访问的倒排表内容;(3)对倒排表的磁盘存储结构进行管理,尽量减少磁盘的IO次数。但现有的成果包括压缩技术、倒排索引组织方式及存储结构还不成熟,很难适应大数据时代信息检索系统信息量大、快速响应精而准的需求,因此本发明提出了一种融合压缩技术的高效的倒排索引结构及组织方法,以解决当前倒排索引优化问题,实现海量数据的有效管理。
发明内容
本发明要解决的技术问题是提供一种优化存储空间、精简读取时间的倒排索引结构及组织方法。
为解决目前信息检索系统信息量大、快速响应精而准需求方面的技术问题,本发明提供了一种高效的倒排索引结构,该结构包括:
S101倒排索引由倒排项组成,倒排项包括记录倒排项和属性倒排项两种类型,它们分开存储以减少信息冗余,同时在逻辑上倒排索引也就被分为记录倒排索引和属性倒排索引;
S102记录倒排索引由记录倒排项组成,“记录倒排项”是由“记录号”独立形成的,包括“记录号”和“链接器”;
S103“记录号”是一个字段值或全文数据中的词在数据库中出现时所在的记录;
S104“链接器”的具体内容取决于不同的组织方式,可以是地址指针、偏移量、或者属性倒排项的个数等,其功能是能快速定位和读取一个词在该记录中的所有属性项;
S105属性倒排索引由属性倒排项构成,“属性倒排项”是由“位置属性”和“格式属性”组成;
S106“位置属性”是全文数据中的词在当前记录中出现的位置之一,位置属性分三个层次“段落、句子、位置”;
S107“格式属性”是全文数据中的词在出现位置所具有的其它格式信息(如Native XML索引);
本发明还提供一种高效的倒排索引组织方法,该方法包括:
S201倒排索引在文件中采用分块的方式进行组织存储,倒排块综合采用链表和集中定位表两种方式进行管理,使得倒排索引既便于动态维护又有利于SKIP技术下的随机访问;为提高数据加载效率,同时有利于数据随机访问,以数据库索引的优化作为临界点来选择倒排块的管理方式:优化后的倒排索引采用集中定位表进行管理,而优化后新加载的数据所对应的倒排索引仍然用链表管理,直到下一次数据库索引的优化;
S202在整个倒排索引中,将集中定位表看成是一个特殊的链表节点,采用标志位机制来区分是常规的链表节点,还是集中定位表;属性倒排项数据块放在记录倒排项数据块的后面,组合存储在同一文件的同一倒排项数据块中;
S203倒排链表块由“链接器”和“倒排项数据块”组成,“链接器”的基本作用是指示下一倒排链表块或集中定位表的首地址,其中含1个标志位指明下一地址指向的是倒排链表块还是集中定位表;
S204集中定位表由“表头”和“表项”组成,由于倒排段是分块存储的,“表头”的主要功能是给出下一倒排段的集中定位表的地址;最后一个倒排段公用,用于存放精确结果集与非精确结果集的检索算法,因此,每个倒排段的表头均需存放最后一个倒排段的集中定位表的地址,以便精确结果集的检索算法能够快速地定位到这个段;
S205集中定位表管理的倒排块都是经过优化的,一个表项相对于一个倒排块,所占空间很小,直接使用自然的数据类型表示表项各个域;与倒排链表块“链接器”一样,“地址”对于每个表项是不可少的域,同时“最大记录号”和“最小记录号”域不能省略,这样可以避免从倒排项数据块中获取“最大记录号”和“最小记录号”,以减少不必要的操作;此外,集中定位表中的记录倒排项按记录号进行分页存储,因此,每个“表项”还需要一个记录号页码表的长度,便于快速定位、查找记录号,页码表之后是记录号偏移表的起始地址,“页码表长度”域中1位标志位,区分倒排块是否分页,不分页时,低位用于表示属性偏移量,反之则表示记录号偏移量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术股份有限公司,未经北京拓尔思信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210511478.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种色谱处理方法及色谱仪
- 下一篇:一种培哚普利氨氯地平片剂及其生产工艺





