[发明专利]批量与流式结合的数据处理方法及装置在审
| 申请号: | 202011529842.8 | 申请日: | 2020-12-22 |
| 公开(公告)号: | CN112597200A | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 陈卓;孙启明;汪利鹏;李延明;李侃;郭显宽;胡鹏 | 申请(专利权)人: | 南京三眼精灵信息技术有限公司 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/27;G06F16/21 |
| 代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 郑久兴 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 批量 结合 数据处理 方法 装置 | ||
本申请实施例提供一种批量与流式结合的数据处理方法及装置,方法包括:根据需要执行计算的数据节点类型和数据节点数量,确定对应的计算模型,其中,所述数据节点类型包括批量数据节点和流式数据节点,若所述数据节点数量为单个,则执行单源计算模型,否则执行多源计算模型;根据所述计算模型根据预设执行模式进行数据处理;本申请能够有效组合批量数据和流式数据,提高数据处理效率。
技术领域
本申请涉及数据处理领域,具体涉及一种批量与流式结合的数据处理方法及装置。
背景技术
进入数字时代后,数据的价值不断被发掘,特别是大数据技术的出现,让数据分析工作成为各领域想要更进一步发展的必修课,数据分析建模也成为炙手可热的研究方向。
在数据处理领域,批量和流式是最为常见的数据形式,多年来,涌现了一批针对性数据计算工具:批量数据方面,从传统关系型数据库的sql工具,到大数据平台的hive、impala批量计算引擎;流式数据方面,从消息中间件kafka、RabbitMQ到流处理框架storm、flink等。它们各具特点,从多个角度和场景为批量和流式数据分析提供了强有力的计算手段。
发明人发现现有技术中存在的缺陷和不足:
(1)流式数据在数据建模中利用率低
综合业务和效率等因素,工程中采用流式存储的数据大多业务属性单一、内容简单,在应用上多用作单一场景、定向功能实现,甚至很多数据仅做收集,直接入库成为批量数据,失去了宝贵的时效性收益。另外,流式数据在表述和使用上不及批量数据灵活,且难以控制,因此相比后者,流式数据在数据建模过程应用较少。
(2)批量和流式计算缺乏结合手段
批量和流式数据的差异明显:批量数据多存于各类数据库、文件系统,整体批量存取使用;流式数据则多存储于各类消息中间件甚至内存中,逐条或小批量进行处理。不仅如此,二者数据格式的大为迥异,若要实现共同计算,多数情况下需要预先进行格式转换。加之流程控制上的差异,批量和流式数据计算缺乏合适的模式加以整合。
发明内容
针对现有技术中的问题,本申请提供一种批量与流式结合的数据处理方法及装置,能够有效组合批量数据和流式数据,提高数据处理效率。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种批量与流式结合的数据处理方法,包括:
根据需要执行计算的数据节点类型和数据节点数量,确定对应的计算模型,其中,所述数据节点类型包括批量数据节点和流式数据节点,若所述数据节点数量为单个,则执行单源计算模型,否则执行多源计算模型;
根据所述计算模型根据预设执行模式进行数据处理。
进一步地,所述根据所述计算模型根据预设执行模式进行数据处理,包括:
若所述计算模型为单源计算模型且所述数据节点类型为批量数据节点,则一次性批量获取所述批量数据节点的目标数据并根据预设执行模式进行数据处理;
若所述计算模型为多源计算模型且所述数据节点类型为流式数据节点,则依次获取所述流式数据节点的各条目标数据或获取设定时间周期内所述流式数据节点的目标数据,并根据预设执行模式进行数据处理。
进一步地,所述根据所述计算模型根据预设执行模式进行数据处理,包括:
若所述计算模型为多源计算模型且需要执行计算的数据节点类型为多个批量数据节点,则通过预设计算引擎或预设数据索引规则对各批量数据节点的目标数据进行数据处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京三眼精灵信息技术有限公司,未经南京三眼精灵信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011529842.8/2.html,转载请声明来源钻瓜专利网。





