[发明专利]多文档交集获取方法、装置、设备及可读存储介质有效
申请号: | 201710797899.8 | 申请日: | 2017-09-06 |
公开(公告)号: | CN107766414B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 毕成龙;潘文彬 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06F16/953 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王洪 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 交集 获取 方法 装置 设备 可读 存储 介质 | ||
本发明提供了一种多文档交集获取方法及、装置、设备及可读存储介质,所述方法包括:针对搜索过程中需要求交集的至少两个文档集,获取各文档集的文档集长度,对至少两个文档集的长度进行比较;根据至少两个文档集的长度差异确定获得文档交集的求交算法。本发明通在两个文档集的文档集长度符合预设条件时,过以长度最短文档集中的元素作为查询元素,依次遍历剩余的文档集,可以避免当查询元素未被查找到时,需要以查询的文档集中的下一个文档作为查询元素进行无意义的查询,加快了搜索引擎针对用户的响应时间。
技术领域
本发明实施例涉及搜索引擎技术领域,尤其涉及一种多文档交集获取方法及、装置、设备及可读存储介质。
背景技术
搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
目前,广泛应用的开源搜索引擎采用了一种线性的获取多文档集交集的方法,即:将每个文档集排序后,从第一个文档集开始,遍历其中的元素,然后遍历其他文档集,这时有两种情况,找到该元素,则继续遍历下一个文档集,如果没找到,那么以当前文档集的下一个元素作为查找的文档,重新遍历其他文档集,如此往复,直到找到一个同时在所有文档集中的文档为止。以这种方式,不断重复,直到其中一个文档集遍历结束,则多文档集求交过程结束。
但是,针对在先技术,当不同文档集的长度差距大于某一阈值时,会产生性能上的缺陷,比如,在遍历每个文档集的每个元素时,如果该元素不符合要求,需要继续查找本文档集的下一个元素,但这种查找往往是没有必要的,因为通常查找的元素是根本不会出现的,对于多文档集求交而言,只要一个文档中不存在某元素,该元素就一定不会是交集内的元素,因此,会导致在不同文档集的长度差距大于某一阈值时,文档交集的获取效率低下,耗时增加。
发明内容
本发明提供一种多文档交集获取方法、装置、设备及可读存储介质,以解决在先技术中在不同文档集的长度差距大于某一阈值时,文档交集的获取效率低下的问题。
根据本发明的第一方面,提供了一种多文档交集获取方法,所述方法包括:
针对搜索过程中需要求交集的至少两个文档集,获取各文档集的文档集长度;
对所述至少两个文档集的长度进行比较;
根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。
根据本发明的第二方面,提供了一种多文档交集获取装置,所述装置包括:
获取模块,用于针对搜索过程中需要求交集的至少两个文档集,获取各文档集的文档集长度;
长度比较模块,用于对所述至少两个文档集的长度进行比较;
求交模块,用于根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。
根据本发明的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现多文档交集获取方法。
根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行多文档交集获取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710797899.8/2.html,转载请声明来源钻瓜专利网。