[发明专利]一种面向倾斜数据流的实时分组方法及系统有效
| 申请号: | 202310625541.2 | 申请日: | 2023-05-30 |
| 公开(公告)号: | CN116346827B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 孙大为;雷思 | 申请(专利权)人: | 中国地质大学(北京) |
| 主分类号: | H04L67/1001 | 分类号: | H04L67/1001;H04L43/0852 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 倾斜 数据流 实时 分组 方法 系统 | ||
1.一种面向倾斜数据流的实时分组方法,其特征在于,所述方法由面向倾斜数据流的实时分组系统实现,所述面向倾斜数据流的实时分组系统包括上游实例上安装的分组器grouper和下游实例安装的监控器;
所述方法包括:
所述监控器周期性获取系统的运行信息;
当上游实例输出数据流时,所述grouper获取所述数据流中键值的频率;
根据所述数据流中键值的频率,所述grouper对数据流中的键值进行分类,键值的分类结果包括高频键和低频键;
所述grouper根据所述数据流中的键值的分类结果,确定候选实例集;
所述grouper根据候选实例分配权重表,在所述候选实例集中确定出目标实例,将数据流中的元组分配给所述目标实例;
其中,所述运行信息包括实例处理速率、数据输入速率以及上下游实例间的网络延迟;
所述grouper根据候选实例分配权重表,在所述候选实例集中确定出目标实例,将数据流中的元组分配给所述目标实例,包括:
根据所述监控器获取的实例处理速率以及数据输入速率,所述grouper通过排队模型估计实例的平均处理延迟;
根据所述实例的平均处理延迟和上下游实例间的网络延迟,确定所述实例对应的权重,进而确定每个实例对应的权重,生成候选实例分配权重表;
根据生成的候选实例分配权重表,在所述候选实例集中确定出目标实例,将数据流中的元组分配给所述目标实例。
2.根据权利要求1所述的方法,其特征在于,所述grouper获取所述数据流中键值的频率,包括:
基于双层频率统计模型,所述grouper获取所述数据流中键值的频率;
其中,所述双层频率统计模型由两层组成,第一层是由counter组成的filter,用于存储数据流中的高频键以及计数;第二层为sketch,使用经典结构CMS实时跟踪其它键值的计数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据流中键值的频率,所述grouper对所述数据流中的键值进行分类,键值分类结果包括高频键和低频键,包括:
设置分类阈值,根据下游实例负载动态调整分类阈值;
当所述数据流中键值的频率大于或等于分类阈值时,确定所述键值为高频键;
当所述数据流中键值的频率小于分类阈值时,确定所述键值为低频键。
4.根据权利要求3所述的方法,其特征在于,所述设置分类阈值,根据下游实例负载动态调整分类阈值,包括:
设置分类阈值,将分类阈值初始化为1/n,其中,n为下游实例的总数量;
在动态调整分类阈值时,如果下游实例的负载不平衡大于预设的最大负载不平衡,则将分类阈值以倍数减小;如果下游实例的负载不平衡小于预设的最小负载不平衡,则将分类阈值线性增大。
5.根据权利要求1所述的方法,其特征在于,所述grouper根据所述数据流中的键值的分类结果,确定候选实例集,包括:
当所述数据流中的键值的分类结果为高频键时,所述grouper将所有下游实例确定为所述键值的候选实例集;
当所述数据流中的键值的分类结果为低频键时,所述grouper通过两个独立的哈希函数映射出所述键值在下游实例中的候选实例集。
6.根据权利要求1所述的方法,其特征在于,所述grouper根据候选实例分配权重表,在所述候选实例集中确定出目标实例,将数据流中的元组分配给所述目标实例,包括:
计算候选实例集中所有候选实例的权重的和,从0到所述权重的和中抽取一个随机数,遍历所述候选实例分配权重表,当所述随机数落在候选实例集中的某个候选实例的权重范围内时,将所述候选实例确定为目标实例,将数据流中的元组分配给目标实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310625541.2/1.html,转载请声明来源钻瓜专利网。





