[发明专利]基于批处理和流式处理的数据处理架构及数据处理方法在审
申请号: | 201611245710.6 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106873945A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 吴贺俊;冯辉 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 批处理 处理 数据处理 架构 方法 | ||
1.一种基于批处理和流式处理的数据处理架构,其特征在于:包括数据采集模块、批处理模块、流式处理模块、数据合并模块、数据可视化模块和资源监控模块;
其中数据采集模块用于从多个数据采集终端中获取采集的实时数据,并将采集的数据传输至批处理模块和流式处理模块;
所述批处理模块用于对接收的实时数据进行持久化处理,然后在满足执行批处理条件的情况下,采用重计算的机制对经持久化处理的实时数据进行批量处理,并根据处理的结果生成不同粒度的批处理视图;
所述流式处理模块用于对接收的实时数据采用增量计算的机制进行流式处理,并根据处理的结果生成不同粒度的流式处理视图;
所述数据合并模块用于根据具体查询需求,采用相应的合并策略对批处理视图、流式处理视图进行合并;
所述数据可视化模块用于对批处理视图、流式处理视图或合并后的批处理视图、流式处理视图进行展示;
所述资源监控模块用于对数据采集模块、批处理模块、流式处理模块、数据合并模块、数据可视化模块进行资源监控。
2.根据权利要求1所述的基于批处理和流式处理的数据处理架构,其特征在于:所述数据采集模块包括数据收集子模块和数据清洗子模块,所述数据收集子模块用于接收从多个数据采集终端中获取采集的实时数据,所述数据清洗子模块用于采用相应的过滤规则对接收的实时数据进行清洗。
3.根据权利要求1所述的基于批处理和流式处理的数据处理架构,其特征在于:所述批处理模块包括数据预处理子模块、数据处理子模块和批处理视图存储子模块;
所述数据预处理子模块用于对接收的实时数据采用数据集成技术、数据变换技术、数据规约技术进行持久化处理;
所述数据处理子模块在满足执行批处理条件的情况下,采用重计算的机制对经持久化处理的实时数据进行批处理;
所述批处理视图存储子模块用于将数据处理子模块得到的处理结果保存在Hbase中,以生成不同粒度的批处理视图。
4.根据权利要求1所述的基于批处理和流式处理的数据处理架构,其特征在于:所述流式处理模块包括数据处理子模块、流式处理视图存储子模块,其中所述数据处理子模块用于采用增量计算的机制对实时数据进行流式处理,所述流式处理视图存储子模块用于对数据处理子模块产生的数据处理结果保存在Hbase中,以生成不同粒度的流式处理视图。
5.根据权利要求2所述的基于批处理和流式处理的数据处理架构,其特征在于:所述数据采集模块采用Flume日志采集系统实现。
6.根据权利要求3所述的基于批处理和流式处理的数据处理架构,其特征在于:所述批处理模块采用Spark集群实现。
7.根据权利要求4所述的基于批处理和流式处理的数据处理架构,其特征在于:所述流式处理模块采用Storm集群实现。
8.一种根据以上权利要求1~7任一项所述架构的数据处理方法,其特征在于:包括以下步骤:
S1.数据采集模块用于从多个数据采集终端中获取采集的实时数据,并将采集的数据传输至批处理模块和流式处理模块;
S2.批处理模块对接收的实时数据进行持久化处理,然后在满足执行批处理条件的情况下,采用重计算的机制对经持久化处理的实时数据进行批量处理,并根据处理的结果生成不同粒度的批处理视图;
S3.流式处理模块对接收的实时数据采用增量计算的机制进行流式处理,并根据处理的结果生成不同粒度的流式处理视图;
S4.数据合并模块根据具体查询需求,采用相应的合并策略对批处理视图、流式处理视图进行合并;
S5. 数据可视化模块对批处理视图、流式处理视图或合并后的批处理视图、流式处理视图进行展示;
S6.资源监控模块对以上流程中数据采集模块、批处理模块、流式处理模块、数据合并模块、数据可视化模块进行资源监控。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611245710.6/1.html,转载请声明来源钻瓜专利网。