[发明专利]离线数据与流式数据实时融合计算的方法在审
| 申请号: | 201910380072.6 | 申请日: | 2019-05-08 |
| 公开(公告)号: | CN110309848A | 公开(公告)日: | 2019-10-08 |
| 发明(设计)人: | 张翼飞;陈政 | 申请(专利权)人: | 重庆天蓬网络有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 梁爱荣 |
| 地址: | 401135 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实时性 计算逻辑 离线数据 流式数据 实时融合 实时输入数据 数据处理过程 数据处理技术 计算模式 计算效率 结果数据 确认结果 实时统计 统计结果 线型数据 分类 聚合 计算机 统计 | ||
本发明提供了一种离线数据与流式数据实时融合计算的方法,属于计算机大数据处理技术领域,其首先确认结果数据的计算逻辑,整理需要的输入数据,根据计算结果过程中所有输入的数据的属性、特性的计算逻辑按实时性进行分类,分为两类。一类数据是代表历史的统计结果的离线型数据,另一类是实时性高的实时输入数据。这两部分输入数据经过聚合、计算、统计的才得出最后的实时统计结果。本发明在数据处理过程中,通过对数据进行分类,用适当的计算模式进行计算,兼顾数据的实时性以及数据的计算效率,使得结果数据可以更高效迅速的展现出来。
技术领域
本发明涉及计算机大数据处理技术领域,具体而言,涉及一种离线数据与流式数据实时融合计算的方法。
背景技术
随着移动互联网技术的发展,目前大数据处理技术按照计算模式可以划分为离线计算和流式计算两种形态。离线计算会先完成数据的抽取、转换、加载的过程,然后在提供查询。这样的方式看起来虽然合理,但是因为全量数据的抽取、转换、加载过程需要一定的时间,无法满足实时应用场景的某些问题。因此有了流式计算的解决方案,流式计算的特点在于处理无边界并且有实时性,适合高并发和大规模的实时处理场景。但流式计算并不擅长处理历史数据,在处理大批量历史数据时,吞吐量和计算效率远不如离线计算。
因此,在长期的研发当中,现在技术的存在的问题在于,离线计算无法满足数据实时性的需求,流式计算在大批量历史数据的计算场景下处理效率低。在基于历史数据得出实时计算结果的场景下,两者都无法提供满足业务需求的高效数据处理方案。
本发明提供一种数据离线处理和流式处理结合的方法,用于兼顾数据的实时性和处理效率,使得结果数据可以更高效迅速的计算出来。
发明内容
本发明的目的在于提供一种离线数据与流式数据实时融合计算的方法,能够解决上述提到的至少一个技术问题。具体方案如下:
根据本发明的具体实施方式,第一方面,离线数据与流式数据实时融合计算的方法,其特征在于,包括:
S1、首先确认结果数据的计算逻辑,整理需要的输入数据;
S2、本发明根据计算结果过程中所有输入的数据的属性、特性、计算逻辑按实时性进行分类;
S3、根据S2中的数据分类,进行处理;
S4,当遇到离线型数据与实时输入数据需要关联时,采用流式处理的方式,在流式过程处理中去关联离线处理完成的离线型数据的计算结果,用此方法得到一个新的实时输入数据,它是实时输入数据与离线型结果关联的结果数据;
S5、用S3,S4步骤中的方式处理完计算过程中所有的输入,即得到最终的计算结果。
根据本发明的具体实施方式,第二方面,本发明提供一种离线数据与流式数据实时融合计算的方法,对所述S3、S4步骤中的流式处理方式与实时输入数据与离线型结构的过程包括如下内容,
101到104和103到106这两个过程是单纯的离线计算,102到105这个过程是单纯的流式计算。即上述流程描述中S3步骤中描述的计算过程;所述S3、S4步骤中的流式处理方式与实时输入数据与离线型结构的过程包括如下内容,104和105到107的过程,以及107和106到108的过程,是离线型数据和实时输入数据关联的过程;所述108为步骤S5中最终得到的计算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆天蓬网络有限公司,未经重庆天蓬网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910380072.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型压缩方法及装置
- 下一篇:血管图像处理方法、装置、设备及存储介质





