[发明专利]位向量搜索索引在审
| 申请号: | 201680037386.0 | 申请日: | 2016-06-22 |
| 公开(公告)号: | CN107820612A | 公开(公告)日: | 2018-03-20 |
| 发明(设计)人: | M·J·霍普克罗夫特;R·L·古德温;J·G·本内特 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华,潘聪 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 向量 搜索 索引 | ||
背景技术
互联网和其他电子资源上的可用信息和数字内容的数量继续快速增长。考虑到大量的信息,搜索引擎已经被开发出来以便于搜索电子文档。具体地,用户或计算机可以通过提交搜索查询来搜索信息和文档,该搜索查询可以包括比如一个或多个字。在接收到搜索查询之后,搜索引擎基于搜索查询来标识相关的文档。
在高层次上,搜索引擎通过对文档与搜索查询的相关性进行排名来标识搜索结果。排名通常基于大量的文档特征。考虑到庞大的文档集,针对搜索查询,对所有文档进行排名是不可行的,因为这将花费无法接受的时间量。因此,搜索引擎通常采用包括从最终排名过程的考虑中移除文档的初级操作的流水线。该流水线传统上包括匹配器,其从搜索查询中过滤掉没有项目的文档。匹配器使用搜索索引进行操作,该搜索索引包括通过爬寻文档或以其他方式分析文档以收集关于文档的信息而收集的信息。搜索索引通常由在文档中找到的各种项目的倒排列表(posting list,有时被称为倒排索引)组成。特定项目的倒排列表由包含项目的文档列表组成。当接收到搜索查询时,匹配器采用搜索索引来标识包含从搜索查询中标识的项目的文档。然后,可以通过流水线中的一个或多个下游过程来考虑匹配文档,该下游过程进一步移除文档并且最终返回排名后的搜索结果集合。
发明内容
提供本发明内容是为了以简化形式介绍下文将在具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用作确定所要求保护的主题的范围的辅助。
本文中所描述的技术提供了一种搜索系统,其使用位向量来索引数据,而非传统倒排列表。位向量包括数据结构,其试图最大化信息密度,以在现有搜索系统上产生大的效率增加。按照本文中所描述的技术的位向量搜索索引使用若干个位向量来索引关于文档的信息。位向量包括位阵列,其存储关于项目集合的信息。位向量中的每个位位置(或位)指示一个或多个文档是否包含来自项目集合的一个或多个项目。因为位向量可以与项目集合相对应,所以它不能从单个位向量中的设定位得知,那些项目中的哪个项目被包含在与该设定位相对应的文档中。为了解决这个问题,项目可以被包括在多个位向量中。
附图说明
下文参考附图对本文中所提供的技术的各方面进行详细描述,其中
图1是图示了按照本文中所描述的技术的一方面的用于单个项目的位向量的图;
图2是图示了按照本文中所描述的技术的一方面的用于三个项目的组合的位向量的图;
图3是图示了按照本文中所描述的技术的一方面的包括多个位向量中的项目的图;
图4A至图4C是图示了按照本文中所描述的技术的一方面的将位向量相交以标识包括项目的文档的图;
图5是图示了按照本文中所描述的技术的一方面的每位具有不同数目的文档的位向量的图;
图6是图示了按照本文中所描述的技术的一方面的使用位向量来生成搜索索引的方法的流程图;
图7是图示了按照本文中所描述的技术的一方面的使用位向量的简化搜索索引700的图;
图8是图示了按照本文中所描述的技术的一方面的用于匹配器以标识匹配来自搜索查询的项目的文档的方法的流程图;
图9是图示了按照本文中所描述的技术的一方面的首先使用短位向量将位向量相交的方法的流程图;
图10是图示了按照本文中所描述的技术的一方面的可用于来自搜索查询的项目的位向量的示例的图;
图11是图示了按照本文中所描述的技术的一方面的排序用于交叉的位向量的图;
图12是图示了按照本文中所描述的技术的一方面的形成查询计划的图;
图13是图示了按照本文中所描述的技术的一方面的用于查询计划的树的图,其中每个框与位向量相对应;
图14至图17是图示了按照本文中所描述的技术的一方面的按照图13的查询计划的树的位向量的交叉的图;
图18是图示了按照本文中所描述的技术的一方面的用于匹配器以生成匹配器计划的方法的流程图,该匹配器计划提供用于交叉位向量的有效次序;
图19是图示了按照本文中所描述的技术的一方面的使用加强行来匹配文档的方法的流程图;
图20A至图20B是图示了按照本文中所描述的技术的一方面的使用用于短语的位向量的示例的图;
图21是提供长文档的示例的图;
图22是图示了按照本文中所描述的技术的一方面的使用位向量来生成用于搜索索引的分片(shard)的方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680037386.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:事件处理系统调页
- 下一篇:数据库索引自动推荐和创建





