[发明专利]基于流式计算框架的多线程数据处理方法、装置和介质有效
| 申请号: | 202011618342.1 | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112286582B | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 王秀双;马旭东;赵玉红;李良敏;赵春波 | 申请(专利权)人: | 浙江岩华文化科技有限公司 |
| 主分类号: | G06F9/38 | 分类号: | G06F9/38 |
| 代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 范丽霞 |
| 地址: | 313200 浙江省湖州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 计算 框架 多线程 数据处理 方法 装置 介质 | ||
本申请涉及一种基于流式计算框架的多线程数据处理方法、装置和存储介质,通过基于预先设置的第一水位线触发目标窗口处理数据切片,得到第一处理结果;若未被处理的数据切片中存在事件时间戳小于目标窗口的结束时间戳的迟滞数据切片,则记录流式计算框架接收迟滞数据切片的系统时间戳;设置第二水位线,其中,第二水位线的延迟时间不小于迟滞数据切片的系统时间戳与目标窗口的结束时间戳之差;基于第二水位线重新触发目标窗口处理数据切片,得到第二处理结果,并根据第二处理结果校正第一处理结果,解决了基于流式计算框架的计算结果不准确的问题,在保证一定数据处理时效性的情况下,提升了计算结果的准确度。
技术领域
本申请涉及大数据处理技术领域,特别是涉及基于流式计算框架的多线程数据处理方法、电子装置和存储介质。
背景技术
通常在大数据体系中,采用Flink处理实时数据是较优的选择。Flink是一种流式计算框架,用于对无界数据流和有界数据流进行有状态计算,其可在集群环境中运行,以内存执行速度和任意规模来对实时数据执行计算。在Flink中有三个时间概念,分别是事件时间戳(Event Time)、摄入时间戳(Ingestion Time)和系统时间戳(Processing Time)。事件时间戳代表在客观世界中产生的时间,比如用户点击网页产生了一条日志;摄入时间戳代表日志到达Flink的时间;系统时间戳代表操作算子计算日志的本地系统时间。当数据流入Flink中时,Flink采用窗口(Window)按照数据的摄入时间戳来划分数据。
图1是根据相关技术的Flink的滚动窗口示意图,如图1所示,分别有三个用户产生的数据流入Flink,Flink采用滚动窗口对数据做划分,滚动窗口分别如下所示:WA(1-5s)、WB(6-10s)、WC(11-15s),圆圈中的数字代表数据切片在客观世界中生成的相对顺序,比如序号1的数据切片比序号2的数据切片先生成。每个滚动窗口划分的长度相同,为窗口的开始时间戳减去结束时间戳,两个滚动窗口之间互不叠加。在数据生成、流经源端、再到窗口的过程中,流到窗口的数据通常都是按照事件时间戳来排序的,但是也不排除由于网络、分布式等原因,导致乱序的产生,即Flink接收到的数据的先后顺序不是严格按照数据的事件时间戳顺序排列的。
当存在网络延时的情况下,本来进入窗口A的2号数据在5秒内没有进入窗口A,但是它仍然在采集后出现在A窗口里面,这是因为Flink将每条日志的实际产生时间纪录下来,2号数据就是在1-5s产生的,Flink就会把它放在窗口A。只不过它是在6-10s的时候被放进去的。Flink内部会在预设时间后生成一个时间戳,它的值等于当前窗口的结束时间戳加预设延迟时间。
该机制就是水位线(Watermark)机制,可以理解成一个延迟触发机制,通过设置水位线的延迟时间t,窗口开放时,Flink会校验已经到达的数据的最大事件时间戳(maxEventTime),然后认定当前小于的所有数据都已经到达,如果有窗口的结束时间戳等于,那么这个窗口被关闭并触发执行,在最大事件时间戳的数据之后到达Flink的迟滞数据将不被该窗口计算。然而,该机制存在的缺陷为:若水位线设置过低,会导致大量数据因迟到而不被当前窗口接收,导致计算结果不准确;若水位线设置过高,只有等待时间到达水位线后才会触发当前窗口计算,导致计算的时效性低。
目前针对相关技术中基于流式计算框架的计算结果不准确的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于流式计算框架的多线程数据处理方法、电子装置和存储介质,以至少解决相关技术中基于流式计算框架的计算结果不准确的问题。
第一方面,本申请实施例提供了一种基于流式计算框架的多线程数据处理方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江岩华文化科技有限公司,未经浙江岩华文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011618342.1/2.html,转载请声明来源钻瓜专利网。





