[发明专利]一种基于高频键值计数的分布式倾斜流处理方法和系统有效

专利信息
申请号: 202011629933.9 申请日: 2020-12-31
公开(公告)号: CN112783644B 公开(公告)日: 2023-06-23
发明(设计)人: 李肯立;郭耀莲;唐卓;刘园春;罗文明;宋莹洁;阳王东;曹嵘晖;肖国庆;刘楚波;周旭 申请(专利权)人: 湖南大学
主分类号: G06F9/50 分类号: G06F9/50;G06F16/2455
代理公司: 武汉臻诚专利代理事务所(普通合伙) 42233 代理人: 宋业斌
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 高频 键值 计数 分布式 倾斜 处理 方法 系统
【说明书】:

发明公开了一种基于高频键值计数的分布式倾斜流处理方法和系统,其基本思路在于,使用计数式布隆过滤器对数据流中每个数据项进行计数,根据频数将该数据项分别识别为高频键、潜在高频键和低频键,进而得到不同数据项的分布,对高频键采用添加随机后缀再分组聚合的策略分配下游实例,对非高频键采用键值分组策略分配下游实例,从而实现不同下游实例间的负载均衡,提高系统性能。本发明能解决倾斜流处理方法中的随机分组下游实例的内存开销极大和键值分组下游实例间负载不均衡的技术问题。

技术领域

本发明属于大数据处理领域,更具体地,涉及一种基于高频键值计数的分布式倾斜流处理方法和系统。

背景技术

随着大数据技术的发展,在社交网络、金融数据分析、电子商务交易等领域出现了大量基于数据流的应用。相较于传统数据,数据流具有动态、高速、海量、无限等特点,传统分布式处理方法无法预测和控制数据流到达的时间和规模,当数据到来的规模极大时,传统分布式处理方法处理性能急剧下降。为了应对上述挑战,基于S4、Storm、SparkStreaming、Flink等分布式流处理系统的方法应运而生。此外,实际应用中的数据流分布是高度倾斜的,即数据流中各个数据的频数相差较大。

分布式流处理方法通过逻辑拓扑的方式将分布式流处理系统中运行节点组织连接成一个应用处理流程,这些连接信息通常表示为一个有向无环图,图中的顶点代表应用中的一个操作,边代表操作间数据流的流向。分布式流处理系统为每个数据操作创建多个下游实例,流处理方法中分组策略的目的就是将上游操作发送的数据进行分组,并分别分配到各个下游实例中,因此流处理的分组策略直接影响到各下游实例所处理数据的数量和分布情况。现有的分布式流处理的基本分组方法包括随机分组和键值分组,其中随机分组采用轮询机制,将每个数据项以等概率的形式分配给每个下游实例,易于实现系统工作量的均匀分布;键值分组基于哈希运算将相同键的数据项分配给一个下游实例,每个数据项的键的状态仅由一个下游实例维护。

然而,现有的分布式倾斜流处理方法存在以下技术问题:随机分组中每个下游实例都要维护所有键的状态,下游实例的内存开销极大;而键值分组将相同键分配给同一个下游实例,不同键的值相差较大,导致下游实例间负载不均衡,并且随着数据流倾斜度的增加,下游实例间的负载不均衡更严重。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于高频键值计数的分布式倾斜流处理方法和系统,其目的在于解决倾斜流处理方法中的随机分组下游实例的内存开销极大和键值分组下游实例间负载不均衡的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于高频键值计数的分布式倾斜流处理方法,包括如下步骤:

(1)获取数据流中待处理的数据项ei,和数据流中在数据项ei之前已处理的数据项总数M;

(2)判断数据项ei是否位于高频键集S中,如果是,则将高频键集S中与该数据项相同的键所对应的值加1,然后进入步骤(10),否则进入步骤(3);

(3)使用计数式布隆过滤器对数据项ei进行处理,以得到该数据项ei的频数fi

(4)判断数据项ei的频数fi大小是否大于等于高频键阈值ε,如果是,则进入步骤(5),否则转入步骤(6);

(5)判断高频键集S中已有键数是否等于高频键集最大键数C,如果是,则将数据项ei替换高频键集S中值最小的键,并将该键的值设置为fi+fmin,其中fmin是高频键集S中键的最小值,然后转入步骤(10);否则,将数据项ei及频数fi作为新的键值插入高频键集S中,然后转入步骤(10);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011629933.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top