[发明专利]修剪索引以增强数据库查询处理在审
| 申请号: | 202011561998.4 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN113051351A | 公开(公告)日: | 2021-06-29 |
| 发明(设计)人: | 蒂埃里·克吕安斯;本诺特·戴奇维勒;伊斯梅尔·欧基德;斯蒂芬·里克特 | 申请(专利权)人: | 斯诺弗雷克公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/22;G06F16/2455;G06F16/27 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 俞立文;杨明钊 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 修剪 索引 增强 数据库 查询 处理 | ||
1.一种基于网络的数据仓库系统,包括:
至少一个硬件处理器;以及
存储器,所述存储器存储使所述至少一个硬件处理器执行包括以下项的操作的指令:
访问被组织成微分区集合的源表;
基于所述源表生成修剪索引,所述修剪索引包括对所述源表的每一列中的不同值进行索引的过滤器集合;
接收针对所述源表的查询;以及
使用所述修剪索引处理所述查询,所述查询的处理包括修剪所述源表的微分区集合以扫描匹配所述查询的数据,所述微分区集合的修剪包括使用所述修剪索引识别微分区子集以扫描匹配所述查询的数据。
2.根据权利要求1所述的基于网络的数据仓库系统,其中,生成所述修剪索引包括:
为所述源表中的微分区集合中的每个微分区生成过滤器。
3.根据权利要求2所述的基于网络的数据仓库系统,其中,为每个微分区生成过滤器包括通过执行包括以下项的操作为第一微分区生成第一过滤器:
针对给定的数据值,
基于所述数据值识别所述第一过滤器内的单元;
基于所述数据值生成散列值;以及
使用所述散列值填充所述第一过滤器中的所述单元。
4.根据权利要求3所述的基于网络的数据仓库系统,还包括:
计算所述第一过滤器中的级别数量;
其中,识别所述单元包括:
基于所述数据值和所述第一过滤器中的级别数量来识别所述第一过滤器中的切片;以及
基于所述数据值和所述第一过滤器中的过滤器列数来识别过滤器列。
5.根据权利要求3所述的基于网络的数据仓库系统,其中,生成所述第一过滤器还包括:
基于目标假阳性率合并所述第一过滤器的一行或更多行。
6.根据权利要求1所述的基于网络的数据仓库系统,其中:
所述过滤器集合中的过滤器包括布隆过滤器集合;并且
所述修剪索引还包括多个列,所述多个列包括微分区标识符列、切片号列和所述布隆过滤器集合。
7.根据权利要求6所述的基于网络的数据仓库系统,还包括:
基于所述切片号列对所述修剪索引进行聚类。
8.根据权利要求1所述的基于网络的数据仓库系统,其中:
所述过滤器集合中的每个过滤器包括多个布隆过滤器,每个分块布隆过滤器中布隆过滤器的数量基于假阳性率约束。
9.根据权利要求1所述的基于网络的数据仓库系统,其中,使用所述修剪索引处理所述查询包括:
基于包括在所述查询中的等式谓词生成散列值;
识别所述修剪索引中匹配所述散列值的一个或更多个值;以及
基于所述修剪索引中匹配所述散列值的所述一个或更多个值,识别潜在地满足所述等式谓词的一个或更多个微分区。
10.根据权利要求1所述的基于网络的数据仓库系统,其中,所述操作还包括:
检测所述源表的变化;
基于所述源表的变化为所述修剪索引生成一个或更多个附加行;以及
基于切片号重新聚类所述修剪索引。
11.根据权利要求1所述的基于网络的数据仓库系统,其中,所述操作还包括:
扫描所述源表的微分区子集以识别匹配所述查询的数据。
12.根据权利要求11所述的基于网络的数据仓库系统,其中,识别微分区子集以扫描匹配所述查询的数据包括识别其中潜在地存储了匹配所述查询的数据的一个或更多个微分区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯诺弗雷克公司,未经斯诺弗雷克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011561998.4/1.html,转载请声明来源钻瓜专利网。





