[发明专利]一种数据流挖掘方法在审
申请号: | 201611208516.0 | 申请日: | 2016-12-23 |
公开(公告)号: | CN108241644A | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 唐德可;宋才秀;任丽君 | 申请(专利权)人: | 航天星图科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区国*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 历史数据文件 实时数据流 数据流挖掘 数据流 计算节点 实时处理 数据文件 细粒度管理 时序 分配 | ||
本发明提供一种数据流挖掘方法,将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。
【技术领域】
本发明属于数据流处理领域,尤其涉及数据流挖掘方法。
【背景技术】
现有技术中对日志进行实时分析可以把握系统的当前状态并进行实时响应,目前对海量日志数据流进行分布式实时流处理的方式为:首先实时接收一批数据流,并将该数据流采用分布式分发的方式下发到多个处理单元,每个处理单元接收分发的一个或多个数据流并进行实时分析处理,处理完的数据流进行整合输出。
但是,现有的数据流分布式并行处理方式在任务划分时没有精细化地考虑到各个计算节点的实时处理能力,会造成有些计算节点当前的实时计算能力较低不适合进行日志数据流的实时处理,无法实现细粒度的并行管理。
基于上述问题,现在亟需一种新的数据流挖掘方法,根据将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种数据流挖掘方法。
本发明采用的技术方案如下:
一种数据流挖掘方法,其特征在于,该方法包括如下步骤:
(1)接收数据流,并对数据流进行时序分组,时序分组后将日志数据流分为实时数据流、近期数据文件和历史数据文件;
(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点,选择用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点;
(3)将实时数据流、近期数据文件和历史数据文件任务分配给实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点;
(4)实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点分别进行相应挖掘任务的处理;
(5)对上述处理结果进行整合并输出。
本发明的有益效果包括:根据将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明多节点数据处理系统的框架图;
图2是本发明数据流挖掘方法的流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,一种数据流挖掘方法用于多节点数据流处理系统中,所述系统包括一个主控节点和多个计算节点,其中所述主控节点用于根据接收到的数据流向各个计算节点分配任务,各个计算节点用于对所接收到的分配任务并行地进行计算。在一个实施方式,所述多节点处于分布式系统中,或多节点处于云系统中。
实施例1,参见附图2,一种数据流挖掘方法,该方法包括如下步骤:
(1)接收数据流,并对数据流进行时序分组,时序分组后将日志数据流分为实时数据流、近期数据文件和历史数据文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天星图科技(北京)有限公司,未经航天星图科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611208516.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词的指标数据分析方法及装置
- 下一篇:图像处理方法及装置