[发明专利]一种动态数据环境下的数据流混合分类方法在审

申请号：	201310608553.0	申请日：	2013-12-26
公开（公告）号：	CN103678512A	公开（公告）日：	2014-03-26
发明（设计）人：	姚远	申请（专利权）人：	大连民族学院
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/66
代理公司：	大连博晟专利代理事务所(特殊普通合伙) 21236	代理人：	于忠晶
地址：	116000 辽宁省大***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种动态数据环境数据流混合分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及智能信息处理技术领域，特别涉及一种动态数据环境下的数据流混合分类方法，适用于网络入侵检测，网络安全监控、传感器数据监控和电网供电等方面。

背景技术

随着物联网的发展，以及“大数据”时代的到来，传统数据挖掘方法正面临着新的挑战，其中数据形式的变化是最为重要和基本的内容。传统数据形式主要以静态数据为主，其容量有限，可被存储且基本无变化。因此，对传统数据挖掘算法的设计，往往假设数据是静态，考虑更多的是算法本身而不是数据形式适应问题。

但近些年，随着信息化发展的深入，一种崭新的数据形式，即数据流，逐渐成为主流数据形式。与静态数据形式不同，数据流主要包含三种基本特征，即海量性、实时性和动态变化性，因此如果再继续单纯的套用传统数据挖掘方法，往往无法得到令人满意的结果，甚至是完全失效。也正因为如此，目前针对数据流挖掘的研究成为新的研究热点。

对数据流分类问题来说，其核心问题是设计适应数据流特点（海量性、实时性和动态变化性）的分类方法。具体来说，较传统分类方法来说，数据流的海量性特点要求数据流分类方法能够在无法存储历史数据的前提下，对数据进行训练和分类；数据流的实时性要求分类模型在分类过程中，除了要考虑分类准确率方面外，还需要对分类时间进行优化和压缩，尽可能的在新数据流产生前完成分类整体过程，对分类模型的运行效率提出了新的要求；数据流的动态变化性要求分类模型具有一定的扩充性和自我更新性，能够适应数据流的变化。因为如此，设计出完全满足数据流三种特点的分类模型，一直是学术界追求的目标，而当前所提出分类方法，大部分只能满足一种或两种数据流特点，只能在一定程度上达到分类的要求。

目前国际、国内尚未出现完全适应数据流特点的分类方法，亟待一种动态数据环境下的数据流混合分类方法。

发明内容

本发明的目的是：为解决上述现有技术中存在的问题，提供一种动态数据环境下的数据流混合分类方法，能够满足数据流海量性、实时性和动态变化性的特点，达到分类要求。

为达到上述目的，本发明采用的技术方案是：一种动态数据环境下的数据流混合分类方法，具体包括以下步骤：

步骤1：动态数据流收集模块102从海量实时数据流101中按照时间顺序收集数据。

步骤2：数据流划分模块103读取步骤1中的数据流数据，并且根据数据流数据的时间先后关系对数据流进行划分；所述数据流初始化模块103划分得到的数据块中，包含3类数据分别是训练集、验证集和测试集，每个数据集中所包含的数据样本数量为N；N是固定变量，由使用者提前设定。

步骤3：将经过数据流划分模块103所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化模块104，对静态数据集进行归一化处理。

步骤4：将经过数据初始化模块104处理后的训练集数据输入到集成分类器模块105中，所述集成分类器模块105对训练集数据进行分类并构建集成分类器。

步骤5：利用参数优化模块（106）对步骤4中集成分类器模型进行参数优化；

步骤6：将经过数据初始化模块（104）处理后的验证集输入到步骤5优化后的集成分类器中，得到的数据类别标签为数据集L；

步骤7：将数据集L输入到聚类模块107中，对所使用的聚类模型进行训练。

步骤8：将数据初始化模块104所得到的测试集数据输入到所构建的混合分类模型中，完成数据流分类过程。