[发明专利]日切场景的流式数据处理方法及装置在审
申请号: | 202210132708.7 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114490297A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李天浩;雷赛龄;杨小可;孟少川;赵正阳;黄子豪 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 周永君;汤在彦 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 数据处理 方法 装置 | ||
本发明提供了一种日切场景的流式数据处理方法及装置,可用于金融领域或其他领域。所述方法包括:获取流式数据,根据流式数据的驱动系统运算类型,对所述流式数据进行数据分流处理,确定所述流式数据的处理模式;根据所述流式数据的处理模式,确定所述流式数据对应的窗口最迟到达时间;对流式数据对应的窗口最迟到达时间进行窗口聚合运算,生成运算结果,并对运算结果进行数据发送处理。本发明通过对日切场景的流式数据进行分流处理,解决了日切场景下长时间数据乱序问题,提高了实时数据处理的准确性,提升了数据的时效性,可用性,具有极大的实践操作价值。
技术领域
本发明涉及日切场景的流式计算技术领域,尤指一种日切场景的流式数据处理方法及装置。
背景技术
流式计算场景中作业依赖于事件时间驱动计算,不同的事件时间会进入不同的时间窗口进行运算。但是在银行日切场景中,上游数据中的事件时间可能在特定时间段内变为未来时间,这些数据进入作业后会将作业的时间错误地提前到未来时间。当日切结束上游发送正常时间数据时,会被作业错误地认为是迟到数据而进入错误的处理分支,被丢弃或未在窗口中被统计到。
这种错误的未来时间数据会造成大量的业务数据被归属为迟到数据而被丢弃,除此之外,还会造成数据错误。目前针对银行日切场景,针对长时间数据乱序问题并没有一个好的技术方案解决。
发明内容
针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种日切场景的流式数据处理方法及装置,解决日切场景下长时间数据乱序问题,提高实时数据处理的准确性。
为了实现上述目的,本发明实施例提供一种日切场景的流式数据处理方法,所述方法包括:
获取流式数据,并根据所述流式数据的驱动系统运算类型,对所述流式数据进行数据分流处理,确定所述流式数据的处理模式;
根据所述流式数据的处理模式,确定所述流式数据对应的窗口最迟到达时间;
对所述流式数据对应的窗口最迟到达时间进行窗口聚合运算,生成运算结果,并对所述运算结果进行数据发送处理。
可选的,在本发明一实施例中,所述方法还包括:
根据预设的窗口时间,确定所述流式数据中的迟到数据;
根据所述迟到数据对应的窗口最迟到达时间,对所述迟到数据进行迟到数据分析处理及迟到数据发送处理。
可选的,在本发明一实施例中,所述根据所述流式数据的驱动系统运算类型,对所述流式数据进行数据分流处理,确定所述流式数据的处理模式包括:
若所述流式数据的驱动系统运算类型为系统时间类型,则确定所述流式数据的处理模式为系统时间处理模式;
若所述流式数据的驱动系统运算类型为时间戳类型,则确定所述流式数据的处理模式为事件时间处理模式。
可选的,在本发明一实施例中,所述根据所述流式数据的处理模式,确定所述流式数据对应的窗口最迟到达时间包括:
若所述流式数据的处理模式为系统时间处理模式,则根据所述流式数据对应的系统时间及预设的最大允许事件超时时间,确定所述流式数据对应的窗口最迟到达时间;
若所述流式数据的处理模式为事件时间处理模式,则根据所述流式数据对应的事件时间及预设的最大允许事件超时时间,确定所述流式数据对应的窗口最迟到达时间。
可选的,在本发明一实施例中,所述根据所述流式数据对应的系统时间及预设的最大允许事件超时时间,确定所述流式数据对应的窗口最迟到达时间包括:
根据所述流式数据对应的系统时间及进入系统延时时间,确定所述流式数据对应的时间戳;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210132708.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在电路版图中定位提取电容的方法及装置
- 下一篇:一种飞剪机定位检测装置