[发明专利]一种面向倾斜数据流的实时分组方法及系统有效
| 申请号: | 202310625541.2 | 申请日: | 2023-05-30 |
| 公开(公告)号: | CN116346827B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 孙大为;雷思 | 申请(专利权)人: | 中国地质大学(北京) |
| 主分类号: | H04L67/1001 | 分类号: | H04L67/1001;H04L43/0852 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 倾斜 数据流 实时 分组 方法 系统 | ||
本发明涉及数据流分组技术领域,特别是指一种面向倾斜数据流的实时分组方法及系统。方法包括:监控器周期性获取系统的运行信息;当上游实例输出数据流时,grouper获取数据流中键值的频率;根据数据流中键值的频率,grouper对数据流中的键值进行分类,键值的分类结果包括高频键和低频键;grouper根据数据流中的键值的分类结果,确定候选实例集;grouper根据候选实例分配权重表,在候选实例集中确定出目标实例,将数据流中的元组分配给目标实例。采用本发明,可以将高频键分发给所有下游实例,通过平均处理延迟和网络延迟计算实例权重,经过多轮反馈调整后,使实例间的负载处于相对平衡的水平。
技术领域
本发明涉及数据流分组技术领域,特别是指一种面向倾斜数据流的实时分组方法及系统。
背景技术
在分布式流计算系统中,数据倾斜和集群异构会导致有状态操作符的并行处理任务之间负载分布不均。现有的流分组方案主要关注有状态运算符的数据划分的平衡,忽略了计算节点处理能力差异以及网络成本对系统性能的影响,无法满足分布式流计算系统在运行时弹性可扩展的高要求,导致高延迟和低吞吐。
Shuffle Grouping(SG)和Key Grouping(KG)是分布式流计算系统中最具代表性的分组方案。SG基于轮询规则,将每个元组随机分配到下游的并行实例中,确保每个实例处理的元组数量基本相同。KG将指定的字段作为键,并根据哈希函数为下游实例分配元组。但是,对于有状态操作符来说,虽然SG可以有效地实现数据级负载平衡,但其成本太高,不容易扩展。KG可以简单地存储状态,但它容易导致多个实例之间的负载不平衡。并且SG和KG都没有考虑实例间的网络成本、实例处理速率、数据流内容变化和速率波动。
为了处理数据倾斜造成的不均衡负载,部分键值分组(PKG)使用了两种新技术:密钥分割和局部负载估计,以使经典的“两种选择的力量”适应分布式流计算设置。当认识到对于高频键值两个候选实例时,D-choices根据频率分配热键给d≥2的候选实例。
同样,为了解决热键随时间变化的问题,一个新的负载平衡机制(FISH)提出了基于元组个数衰减的最近热键识别和通过计算启发式下游worker的状态进行分配元组。随后,一个流行感知的差异化分布式流处理系统(PStream)使用SG分配热键,使用KG分配不太常见的键。PStream利用一个轻量级的概率计数方案来识别当前的热键,并设计了一个自适应的阈值配置方案,以适应实时流中的动态流行度变化。
PFG提出了一种基于Sketch的预过滤分组算法,该使用重打击算法来动态监控流中的项目。将检测到的高频键值键随机指向有限数量的工作者中的两个以上候选实例,且候选实例ID连续;另一方面,对于频率较低的键,它们直接指向两个候选实例。PFG使用本地负载估计来选则候选实例中分配处理数据最少的实例作为目标实例。
许多研究都考虑了局部性,通过降低网络成本来提高系统的性能。在中,相关的键被分配给托管在同一计算节点上的实例。在中,提出了一种同时考虑任务局部性和下游状态的随机局部性感知流划分(SLSP)方法。Squirrel提出了一种网络感知分组方法,根据实例之间的网络位置和负载,为每个下游实例设置动态权重和优先级。
综上所述,上述解决方案为数据流分组提供了有价值的见解,但它们没有足够的弹性可扩展性,依然存在内存开销过大、处理能力慢的实例负载积压造成资源浪费等问题。
发明内容
本发明实施例提供了一种面向倾斜数据流的实时分组方法及系统。所述技术方案如下:
一方面,提供了一种面向倾斜数据流的实时分组方法,所述方法由面向倾斜数据流的实时分组系统实现,所述面向倾斜数据流的实时分组系统包括上游实例上安装的grouper和下游实例安装的监控器;
所述方法包括:
所述监控器周期性获取系统的运行信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310625541.2/2.html,转载请声明来源钻瓜专利网。





