[发明专利]存储高效、更新优化的事务型全文索引视图维护的方法和系统有效

专利信息
申请号: 201380050962.1 申请日: 2013-09-20
公开(公告)号: CN104854582B 公开(公告)日: 2019-03-01
发明(设计)人: E·C·比歇;P·普列沙奇科夫;S·权;S·黄 申请(专利权)人: EMC公司
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 张金金;姜甜
地址: 美国麻*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 存储 高效 更新 优化 事务 全文 索引 视图 维护 方法 系统
【说明书】:

方法和系统针对更新优化和存储高效的事务型全文索引视图维护的方法。实施例包括在任意特定时间发生大量更新的情况下降低维护事务型索引视图的开销需求的方法和系统。该方法涉及在更新的事务型查询间间维护单个黑名单位图、当需求新的视图时向位图应用最新的一组更新,以及当创建了事务型视图时对位图进行后调整以保证应当可见的条目未被移除。

背景技术

全文索引系统,例如搜索引擎索引算法和文档检索系统,典型地利用倒排索引(或“记入文件”)作为索引数据结构,该索引数据结构存储从内容(例如,词或数字)到数据库文件或文档中位置的映射。倒排索引通常允许快速搜索操作,但当向数据库中增加文档时可能导致更多的处理。通过创建正向索引来形成倒排索引,正向索引存储每个文档的字列表,该正向索引然后被转化以创建倒排索引,倒排索引根据每个字列出文档。由于不需要使用正向索引顺序地重复每个文档和每个字来验证匹配文档,这加速了查询过程。在创建了倒排索引的情况下,可通过经由倒排索引中的随机访问操作跳至字标识符来解决查询。

对全文索引环境应用更新通常是一项具有挑战性的任务,因为倒排索引是为了快速查询而不是为了更新而设计的。将被删除的条目列入黑名单是一种阻止访问被删除条目的常见技术,并且一般而言比直接更新它们更加高效。也就是说,当被列入黑名单时,被删除对象实质上被虚拟地删除,如同在查询过程中一开始存在但在查询操作完成之前被过滤掉了。一旦(在正常的合并操作期间)索引被重建,物理删除将反映到索引上。需要这个过程是因为对黑名单对象的后查询过滤损害了查询性能。

这样的方法与被设计为支持低延迟直接更新的典型关系数据库的B-树索引形成对照。更新高效的性能允许关系型B-树索引被用于联机事务处理(OLTP)应用及其它需要低延迟更新的应用。然而,该索引方法的不利之处在于,它不能提供倒排全文索引更高价值的模糊搜索。

与低延迟事务型数据库系统不同,典型的全文环境在反映更新上具有非常高的延迟。在较旧的静态版本被查询的同时,全文数据库系统收集所有变化并将它们应用到新版本的索引上。这个过程意味着需要花几分钟到几小时的时间来反映和应用更新。结果,为了信息检索应用中所使用的高质量搜索,这些应用牺牲了低延迟更新。

黑名单位图是一种记录了至少一个不能与服务同时共享资源的服务的位图。事务型查询视图的结构不仅包括确定要使用的一组索引,还包括获取反映最近变换的最新版本的黑名单位图。黑名单位图必须在另一事务完成后重新创建以反映系统的当前变化。在许多情况下,可能只是从永久黑名单结构中重建黑名单位图。然而,在任何特定时间发生大量更新的情况下,由于扫描和使用黑名单项目的列表来创建新的黑名单位图,该过程可能变得代价高得不可接受。

该黑名单位图的重建可在不同事务的用户之间共享,只要他们的事务型视图本质上相同。然而,读事务开始和结束在不同的时间而写事务可能在这些完成之间发生。这导致了多个并行的读事务具有不同的黑名单位图。这些独特的黑名单位图视图的创建可导致查询花费大约多达一分钟的时间,因为要处理成百上千的黑名单条目来创建该视图。

因此,需要一种在大量更新的情况下减少维护事务型索引视图开销的改进方法。

附图说明

通过结合附图阅读本说明书,所要求保护的主题的优点对于本领域技术人员来说将是显而易见的,附图中使用相似的参考数字指代相似的元素,并且其中:

图1是说明可在其中实现本主题的示例硬件设备的模块图;

图2说明了在实施例下应用更新的示例全文索引环境;

图3说明了在实施例下在全文索引环境中更新文档的过程;

图4说明了在实施例下取决于事务行为的文档的不同视图从而说明位图高速缓存方法的操作;

图5说明了在实施例下单个全局位图高速缓存的使用;

图6A是说明在实施例下在全文环境中维护索引的方法的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于EMC公司,未经EMC公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380050962.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top