[发明专利]位向量搜索索引在审
| 申请号: | 201680037386.0 | 申请日: | 2016-06-22 |
| 公开(公告)号: | CN107820612A | 公开(公告)日: | 2018-03-20 |
| 发明(设计)人: | M·J·霍普克罗夫特;R·L·古德温;J·G·本内特 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华,潘聪 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 向量 搜索 索引 | ||
1.一个或多个计算机存储介质,存储用于搜索索引的数据结构,所述数据结构存储用于文档语料库的数据,所述数据结构包括多个位向量,每个位向量包括位阵列,所述位向量的至少一部分的每个部分与对应的项目集合相对应,其中所述位的至少一部分中的每个部分表示至少一个文档是否包括来自所述对应的项目集合的至少一个项目。
2.根据权利要求1所述的一个或多个计算机存储介质,其中由所述搜索索引所索引的所述项目中的至少一部分中的每个部分与两个或更多个位向量相对应。
3.根据权利要求1所述的一个或多个计算机存储介质,其中所述多个位向量包括多个长位向量,每个长位向量中的每个位表示对应文档是否包括来自对应的项目集合的至少一个项目。
4.根据权利要求3所述的一个或多个计算机存储介质,其中所述多个位向量包括多个短位向量,每个短位向量中的每个位表示来自对应的文档集合的至少一个文档是否包括来自对应的项目集合的至少一个项目。
5.根据权利要求4所述的一个或多个计算机存储介质,其中由所述搜索索引所索引的所述项目中的至少一部分中的每个部分与至少一个长位向量和至少一个短位向量相对应。
6.根据权利要求1所述的一个或多个计算机存储介质,其中与所述项目的至少一部分中的每个部分相对应的若干个位向量是基于在所述文档语料库中出现的每个项目的频率。
7.根据权利要求1所述的一个或多个计算机存储介质,其中项目与位向量相关联以在所述搜索索引中的所述位向量上逼近期望的位密度。
8.一种用于为文档语料库生成搜索索引的方法,所述方法包括:将项目指派给位向量,每个位向量包括位阵列,其中多于一个项目被指派给所述位向量中的至少一部分中的每个部分;将文档指派给每个位向量中的位;以及基于所述文档中的每个文档中的项目的出现来设置存储在一个或多个计算机存储介质上的每个位向量中的位。
9.根据权利要求8所述的方法,其中所述项目的至少一部分中的每个部分被指派给两个或更多个位向量。
10.根据权利要求8所述的方法,其中基于所述文档语料库中的每个项目的频率,所述项目中的至少一部分中的每个部分被指派给若干个位向量。
11.根据权利要求8所述的方法,其中所述位向量包括:多个长位向量,每个长位向量中的每个位表示对应文档是否包括来自对应的项目集合的至少一个项目;以及多个短位向量,每个短位向量中的每个位表示来自对应文档集合的至少一个文档是否包括来自对应的项目集合的至少一个项目;并且其中所述项目的至少一部分中的每个部分被指派给至少一个长位向量和至少一个短位向量。
12.一种计算机系统,包括:一个或多个处理器;以及一个或多个计算机存储介质,所述一个或多个计算机存储介质存储用于搜索索引的数据结构,所述数据结构存储用于文档语料库的数据,所述数据结构包括多个位向量,每个位向量包括位阵列,所述位向量的至少一部分的每个部分与对应的项目集合相对应,其中每个位表示至少一个文档是否包括来自所述对应的项目集合的至少一个项目,由所述搜索索引所索引的所述项目中的至少一部分中的每个部分与两个或更多个位向量相对应。
13.根据权利要求12所述的系统,其中所述多个位向量包括多个长位向量,每个长位向量中的每个位表示对应文档是否包括来自对应的项目集合的至少一个项目。
14.根据权利要求13所述的系统,其中所述多个位向量包括多个短位向量,每个短位向量中的每个位表示来自对应文档集合的至少一个文档是否包括来自对应的项目集合的至少一个项目。
15.根据权利要求14所述的系统,其中由所述搜索索引所索引的所述项目中的至少一部分的每个部分与至少一个长位向量和至少一个短位向量相对应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680037386.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:事件处理系统调页
- 下一篇:数据库索引自动推荐和创建





