[发明专利]一种基于流式实时分布式大数据的数据采集方法及系统有效
| 申请号: | 201710402900.2 | 申请日: | 2017-06-01 |
| 公开(公告)号: | CN107395669B | 公开(公告)日: | 2020-04-07 |
| 发明(设计)人: | 张星明;梁桂煌;林育蓓;陈霖;古振威;吴世豪 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 实时 分布式 数据 采集 方法 系统 | ||
1.一种基于流式实时分布式大数据的数据采集方法,其特征在于:首先,多种客户端通过访问Web服务,产生新的业务数据,将需要进行采集的数据类型按照需求Type进行数据源分类;然后分配多个执行线程,并在分布式云集群服务器上并行执行数据汇集任务,以任务队列的形式,动态收集来自多种客户端的不同类型的业务数据,对不同类型的业务数据进行分类汇集,实现动态实时更新;云集群服务器划分为一台主服务器和多台子服务器,将每台子服务器定义为代理Agent,按照设定的分区规则,对子服务器进行分区划分,使一个类型对应多个分区,在逻辑上同一类型的数据处于同一分区,在物理上则是处于不同的子服务器中,其中,一个任务队列能够关联多个同源或异源分区,从而更好地实现负载均衡化;当子服务器完成各自的汇集任务时,按照流式处理的方式,以微批量处理时间为标准,将数据分成多段的数据流,每段数据流都基于内存进行缓存,主服务器采用内存处理方式将多段数据流进行数据并行处理,按照业务数据类型进行数据归类处理,并将之存储到持久化的原始数据集当中。
2.根据权利要求1所述的一种基于流式实时分布式大数据的数据采集方法,其特征在于,包括以下步骤:
1)初始化数据采集云集群服务器,选定主从服务器;
2)将子服务器按照分区规则进行分区划分,将不同的数据类型随机分配到分区中,构建数据类型的分区关联任务队列;
3)主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分,以微批处理时间间隔为定量标准将实时数据进行分批,通过时间片批量处理的形式形成相关的数据流;
4)主服务器并行执行多个微批处理任务,形成对应的数据流,基于内存处理将数据流按照数据类型进行归类操作,统一数据类型的数据流,并将归类的业务数据存储到相应的原始数据集中,以便为后续分析提供数据分析基础。
3.一种基于流式实时分布式大数据的数据采集系统,其特征在于,包括:
数据汇集模块,该数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元;所述业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联,用于区分不同的采集来源;所述汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联,构建相应的任务队列,通过分区的方式来提高数据生产和消费的吞吐率,实时收集动态业务数据;
数据归类与持久化模块,该数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元;所述数据流转换单元将实时数据以时间片为单位进行分批,形成对应的数据流;所述数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理,形成完整的对应类型数据流;所述数据持久化单元实现将归类完毕的数据流进行持久化存储,以供后续分析使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402900.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





