[发明专利]多文档交集获取方法、装置、设备及可读存储介质有效

申请号：	201710797899.8	申请日：	2017-09-06
公开（公告）号：	CN107766414B	公开（公告）日：	2020-06-12
发明（设计）人：	毕成龙;潘文彬	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G06F16/93	分类号：	G06F16/93;G06F16/953
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	王洪
地址：	100083 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档交集获取方法装置设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种多文档交集获取方法及、装置、设备及可读存储介质，所述方法包括：针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度，对至少两个文档集的长度进行比较；根据至少两个文档集的长度差异确定获得文档交集的求交算法。本发明通在两个文档集的文档集长度符合预设条件时，过以长度最短文档集中的元素作为查询元素，依次遍历剩余的文档集，可以避免当查询元素未被查找到时，需要以查询的文档集中的下一个文档作为查询元素进行无意义的查询，加快了搜索引擎针对用户的响应时间。

技术领域

本发明实施例涉及搜索引擎技术领域，尤其涉及一种多文档交集获取方法及、装置、设备及可读存储介质。

背景技术

搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。

目前，广泛应用的开源搜索引擎采用了一种线性的获取多文档集交集的方法，即：将每个文档集排序后，从第一个文档集开始，遍历其中的元素，然后遍历其他文档集，这时有两种情况，找到该元素，则继续遍历下一个文档集，如果没找到，那么以当前文档集的下一个元素作为查找的文档，重新遍历其他文档集，如此往复，直到找到一个同时在所有文档集中的文档为止。以这种方式，不断重复，直到其中一个文档集遍历结束，则多文档集求交过程结束。

但是，针对在先技术，当不同文档集的长度差距大于某一阈值时，会产生性能上的缺陷，比如，在遍历每个文档集的每个元素时，如果该元素不符合要求，需要继续查找本文档集的下一个元素，但这种查找往往是没有必要的，因为通常查找的元素是根本不会出现的，对于多文档集求交而言，只要一个文档中不存在某元素，该元素就一定不会是交集内的元素，因此，会导致在不同文档集的长度差距大于某一阈值时，文档交集的获取效率低下，耗时增加。

发明内容

本发明提供一种多文档交集获取方法、装置、设备及可读存储介质，以解决在先技术中在不同文档集的长度差距大于某一阈值时，文档交集的获取效率低下的问题。

根据本发明的第一方面，提供了一种多文档交集获取方法，所述方法包括：

针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；

对所述至少两个文档集的长度进行比较；

根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

根据本发明的第二方面，提供了一种多文档交集获取装置，所述装置包括：

获取模块，用于针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；

长度比较模块，用于对所述至少两个文档集的长度进行比较；

求交模块，用于根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

根据本发明的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现多文档交集获取方法。