[发明专利]数据库表的增量群集在审
| 申请号: | 201980046652.X | 申请日: | 2019-07-17 |
| 公开(公告)号: | CN112437916A | 公开(公告)日: | 2021-03-02 |
| 发明(设计)人: | 闫家奇;蒂埃里·克吕安斯;杰弗里·罗森;威廉·瓦丁顿;普拉桑纳·拉贾佩鲁马尔;阿布杜尔·穆尼尔 | 申请(专利权)人: | 斯诺弗雷克公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 李琰;杨明钊 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据库 增量 群集 | ||
1.一种方法,包括:
接收已经对表执行了数据修改任务的指示;
确定所述表是否被充分群集;
响应于确定所述表没有被充分群集,选择所述表的要被重新群集的一个或更多个微分区;以及
将所述一个或更多个微分区中的每个微分区分配给执行节点以被重新群集。
2.根据权利要求1所述的方法,其中,确定所述表是否被充分群集包括评估所述数据修改任务以确定是否已将足够数量的行添加到所述表中、已从所述表中删除足够数量的行和/或已在所述表中修改足够数量的行以必须重新群集所述表。
3.根据权利要求1所述的方法,其中,选择所述表的要被重新群集的一个或更多个微分区包括:
标识对于群集关键字列具有相等的最小值和最大值的恒定微分区;以及
从考虑中移除所述恒定的微分区,使得所述恒定的微分区不被包括在要被重新群集的所述一个或更多个微分区中。
4.根据权利要求1所述的方法,其中,选择所述表的要被重新群集的一个或更多个微分区包括:
为所述表构造刺入计数数组;
为所述刺入计数数组中的每个微分区提取最小端点和最大端点;
计算所述最小端点和最大端点中的每者的统计信息;以及
在所述刺入计数数组中标识比预定义阈值高的一个或更多个峰。
5.根据权利要求4所述的方法,其中,选择所述表的要被重新群集的一个或更多个微分区还包括:
基于高度对所述刺入计数数组中的所述一个或更多个峰中的每个峰进行排序;
标识所述一个或更多个峰中的每个峰内的重叠的微分区;以及
基于宽度对所述重叠的微分区进行排序。
6.根据权利要求5所述的方法,其中,选择所述表的要被重新群集的一个或更多个微分区还包括基于哪些微分区在所述一个或更多个峰的最高峰内并且还基于所述重叠的微分区中的哪个重叠的微分区具有最宽的宽度进行选择。
7.根据权利要求1所述的方法,还包括:定义用于分配处理资源以执行重新群集操作的预算,并且其中,所述确定所述表是否被充分群集至少部分地基于所述预算。
8.根据权利要求1所述的方法,还包括将所述表的要被重新群集的一个或更多个微分区划分为一个或更多个批,每个批包括一组要被重新群集的微分区。
9.根据权利要求1所述的方法,其中,选择所述表的要被重新群集的一个或更多个微分区包括:
至少基于所述表的大小来确定所述表的最大级别数;
将所述表分成多个级别;
选择每个级别内的微分区的宏批,其中,所述宏批以单个峰为中心并且包括定义的边界;以及
从所述宏批中选择微分区。
10.根据权利要求1所述的方法,其中,所述数据修改任务包括:将新的微分区摄取到所述表中,并且其中,确定所述表是否被充分地群集包括:
检索所述表的级别信息;
标识在所述表中处于较低级别的微分区的比例;
确定是否有高比例的微分区处于所述较低级别;
响应于确定高比例的微分区不处于所述较低级别,进入将不执行重新群集操作的稳定模式;以及
响应于确定高比例的微分区处于所述较低级别,进入将执行重新群集操作的追赶模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯诺弗雷克公司,未经斯诺弗雷克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980046652.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:控制方法、基金管理系统、程序及数据结构
- 下一篇:用于治疗胰腺癌的化合物





