[发明专利]一种动态数据环境下的数据流混合分类方法在审
| 申请号: | 201310608553.0 | 申请日: | 2013-12-26 |
| 公开(公告)号: | CN103678512A | 公开(公告)日: | 2014-03-26 |
| 发明(设计)人: | 姚远 | 申请(专利权)人: | 大连民族学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/66 |
| 代理公司: | 大连博晟专利代理事务所(特殊普通合伙) 21236 | 代理人: | 于忠晶 |
| 地址: | 116000 辽宁省大*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 动态 数据 环境 数据流 混合 分类 方法 | ||
技术领域
本发明涉及智能信息处理技术领域,特别涉及一种动态数据环境下的数据流混合分类方法,适用于网络入侵检测,网络安全监控、传感器数据监控和电网供电等方面。
背景技术
随着物联网的发展,以及“大数据”时代的到来,传统数据挖掘方法正面临着新的挑战,其中数据形式的变化是最为重要和基本的内容。传统数据形式主要以静态数据为主,其容量有限,可被存储且基本无变化。因此,对传统数据挖掘算法的设计,往往假设数据是静态,考虑更多的是算法本身而不是数据形式适应问题。
但近些年,随着信息化发展的深入,一种崭新的数据形式,即数据流,逐渐成为主流数据形式。与静态数据形式不同,数据流主要包含三种基本特征,即海量性、实时性和动态变化性,因此如果再继续单纯的套用传统数据挖掘方法,往往无法得到令人满意的结果,甚至是完全失效。也正因为如此,目前针对数据流挖掘的研究成为新的研究热点。
对数据流分类问题来说,其核心问题是设计适应数据流特点(海量性、实时性和动态变化性)的分类方法。具体来说,较传统分类方法来说,数据流的海量性特点要求数据流分类方法能够在无法存储历史数据的前提下,对数据进行训练和分类;数据流的实时性要求分类模型在分类过程中,除了要考虑分类准确率方面外,还需要对分类时间进行优化和压缩,尽可能的在新数据流产生前完成分类整体过程,对分类模型的运行效率提出了新的要求;数据流的动态变化性要求分类模型具有一定的扩充性和自我更新性,能够适应数据流的变化。因为如此,设计出完全满足数据流三种特点的分类模型,一直是学术界追求的目标,而当前所提出分类方法,大部分只能满足一种或两种数据流特点,只能在一定程度上达到分类的要求。
目前国际、国内尚未出现完全适应数据流特点的分类方法,亟待一种动态数据环境下的数据流混合分类方法。
发明内容
本发明的目的是:为解决上述现有技术中存在的问题,提供一种动态数据环境下的数据流混合分类方法,能够满足数据流海量性、实时性和动态变化性的特点,达到分类要求。
为达到上述目的,本发明采用的技术方案是:一种动态数据环境下的数据流混合分类方法,具体包括以下步骤:
步骤1:动态数据流收集模块102从海量实时数据流101中按照时间顺序收集数据。
步骤2:数据流划分模块103读取步骤1中的数据流数据,并且根据数据流数据的时间先后关系对数据流进行划分;所述数据流初始化模块103划分得到的数据块中,包含3类数据分别是训练集、验证集和测试集,每个数据集中所包含的数据样本数量为N;N是固定变量,由使用者提前设定。
步骤3:将经过数据流划分模块103所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化模块104,对静态数据集进行归一化处理。
步骤4:将经过数据初始化模块104处理后的训练集数据输入到集成分类器模块105中,所述集成分类器模块105对训练集数据进行分类并构建集成分类器。
步骤5:利用参数优化模块(106)对步骤4中集成分类器模型进行参数优化;
步骤6:将经过数据初始化模块(104)处理后的验证集输入到步骤5优化后的集成分类器中,得到的数据类别标签为数据集L;
步骤7:将数据集L输入到聚类模块107中,对所使用的聚类模型进行训练。
步骤8:将数据初始化模块104所得到的测试集数据输入到所构建的混合分类模型中,完成数据流分类过程。
其中,所述步骤2中数据流划分模块103对数据流的划分,包括以下步骤:
步骤2.1:首先使用滑动窗口法对海量实时数据流进行静态化处理;其中,滑动窗口每次滑动的距离为N,且每个静态子集所包含的样本数量也为N个;
步骤2.2:使用随机抽取方法对步骤2.1所得到的子集进行混合,分别得到三个数据集,即训练集、测试集和验证集,其中训练集和测试集的大小均为4N。
其中,所述步骤3中数据初始化模块104采用MapMinMax归一化方法对数据进行归一化处理,包括以下步骤:
步骤3.1:首先将得到的训练集、测试集和验证集,分别对其各个属性值进行统计,找到各属性的最大和最小属性值;
步骤3.2:对数据集的各个属性进行归一化处理,所述归一化方法公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族学院,未经大连民族学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310608553.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





