[发明专利]一种基于流式实时分布式大数据的数据采集方法及系统有效

专利信息
申请号: 201710402900.2 申请日: 2017-06-01
公开(公告)号: CN107395669B 公开(公告)日: 2020-04-07
发明(设计)人: 张星明;梁桂煌;林育蓓;陈霖;古振威;吴世豪 申请(专利权)人: 华南理工大学
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 实时 分布式 数据 采集 方法 系统
【权利要求书】:

1.一种基于流式实时分布式大数据的数据采集方法,其特征在于:首先,多种客户端通过访问Web服务,产生新的业务数据,将需要进行采集的数据类型按照需求Type进行数据源分类;然后分配多个执行线程,并在分布式云集群服务器上并行执行数据汇集任务,以任务队列的形式,动态收集来自多种客户端的不同类型的业务数据,对不同类型的业务数据进行分类汇集,实现动态实时更新;云集群服务器划分为一台主服务器和多台子服务器,将每台子服务器定义为代理Agent,按照设定的分区规则,对子服务器进行分区划分,使一个类型对应多个分区,在逻辑上同一类型的数据处于同一分区,在物理上则是处于不同的子服务器中,其中,一个任务队列能够关联多个同源或异源分区,从而更好地实现负载均衡化;当子服务器完成各自的汇集任务时,按照流式处理的方式,以微批量处理时间为标准,将数据分成多段的数据流,每段数据流都基于内存进行缓存,主服务器采用内存处理方式将多段数据流进行数据并行处理,按照业务数据类型进行数据归类处理,并将之存储到持久化的原始数据集当中。

2.根据权利要求1所述的一种基于流式实时分布式大数据的数据采集方法,其特征在于,包括以下步骤:

1)初始化数据采集云集群服务器,选定主从服务器;

2)将子服务器按照分区规则进行分区划分,将不同的数据类型随机分配到分区中,构建数据类型的分区关联任务队列;

3)主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分,以微批处理时间间隔为定量标准将实时数据进行分批,通过时间片批量处理的形式形成相关的数据流;

4)主服务器并行执行多个微批处理任务,形成对应的数据流,基于内存处理将数据流按照数据类型进行归类操作,统一数据类型的数据流,并将归类的业务数据存储到相应的原始数据集中,以便为后续分析提供数据分析基础。

3.一种基于流式实时分布式大数据的数据采集系统,其特征在于,包括:

数据汇集模块,该数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元;所述业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联,用于区分不同的采集来源;所述汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联,构建相应的任务队列,通过分区的方式来提高数据生产和消费的吞吐率,实时收集动态业务数据;

数据归类与持久化模块,该数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元;所述数据流转换单元将实时数据以时间片为单位进行分批,形成对应的数据流;所述数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理,形成完整的对应类型数据流;所述数据持久化单元实现将归类完毕的数据流进行持久化存储,以供后续分析使用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710402900.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top