[发明专利]基于分层聚类的滑动窗口多数据流异常检测方法有效
申请号: | 201310364401.0 | 申请日: | 2013-08-20 |
公开(公告)号: | CN103400152A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 刘大同;庞景月;彭宇;罗清华;彭喜元 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 岳泉清 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层 滑动 窗口 多数 异常 检测 方法 | ||
技术领域
本发明涉及一种多数据流异常检测方法,具体涉及基于分层聚类的滑动窗口多数据流异常检测方法。
背景技术
随着网络技术、信息采集、传感技术的发展与广泛应用,数据流模型大量出现,其潜在无限、到达快速、持续有序的特点,为传统的数据异常检测方法带来巨大挑战,尤其是信息量的迅速膨胀使得很多应用中产生大量的多数据流,如传感器网络、股票交易信息以及网络入侵数据等。在卫星遥测领域,不同子系统及同一子系统中部分布了大量的传感器,传感器采集的参数反应了子系统或系统中物理参数的变化,很多异常不是孤立存在的,而是同时体现在多个参数中,因此对多维参数之间潜在相关性的异常检测也是卫星遥测数据流异常检测的重要组成部分。但是在多维空间里,数据之间的距离不再具有直观的意义,无法通过设定具体的阈值来判断数据的异常情况。对多数据流的异常检测需同时考虑数据各维度之间的相关性,不合理的相关性度量会使得大量有用信息淹没在噪声中,而且对多数据流的分析处理,其算法复杂度提高,算法的实时性性能较低。所以多数据流异常检测问题已经成为数据流挖掘算法的重要挑战之一。现有的多数据流异常检测方法主要有:面向Time-series的特殊数据流模型的单维与多维离群点异常检测方法和FODDS及快速版的FODDS-S算法。
面向Time-series的特殊数据流模型的单维与多维离群点异常检测方法。在任意的时间t,同时观察1个函数,利用启发式方法找到大量时间序列数据流的异常。但是此种方法只适用于Time-Series模型的数据流异常检测。
一种快速的离群点异常检测技术-FODDS及快速版的FODDS-S算法。其主要基于动态网格技术对数据空间中的稠密区域与稀疏区域进行划分,其中稠密区域的数据被简单滤波,从而大大减少了算法应该计算的数据尺寸。而稀疏区域内的可能离群点,利用近似的方法计算其离群度,最后具有高离群度的数据将被视为异常点,但是该方法只适用于较低维的情况。
传统静态数据的聚类算法已经广泛应用于数据分析,而且还作为其他应用(如预测和异常检测)的前期处理过程。但是随着数据采集技术及硬件存储技术的发展,传感器、网络点击流、股票交易等领域部产生了连续、快速、数据量无限的数据流,这为传统的数据聚类挖掘算法提出了新的挑战。由于存储空间的有限性,使得在对大量数据进行处理时,不能够对其进行全部存储;而且由于数据流的快速性,数据聚类挖掘算法只能对其进行单次或者有限的几次扫描,;而数据流的实时性要求数据流中的数据只能按照时间顺序依次读取,这些特性对算法的处理速率和算法运行所占内存提出了更高的要求。
很多专家针对数据流的特点及应用,提出了多种聚类算法。其中,Guha提出了LOCALSEARCH算法对数据流进行聚类,其采用分而治之的思想,利用k-means的多步迭代,实现对数据流的聚类。0'CallaghanL提出了Stream算法,其主要采用分层聚类技术,依据k-means算法进行聚类,使得各个聚类元组的平方误差和最小,但是这两种算法部没有考虑到数据流的演化情况,即没有给予数据流中最近元素较大的权重,使得聚类结果受到过期数据的影响。之后Aggarwal提出了CluStream算法,此算法分为两部分:在线做聚和离线宏聚。其通过金字塔时间结构来保存实时的聚类结果,具有限好的聚类能力和很高的聚类质量。但是这种方法是基于界标模型的,在线做聚类过程只照顾到新数据元素的插入,而没有考虑到过期元素的删除,致使历史数据对于当前聚类结果产生很大影响。而且当对高维数据流进行聚类时,CluStream的性能较差。
综上所述现有的多数据流异常检测方法存在聚类结果受到过期数据的影响和历史数据对于当前聚类结果产生很大影响的问题。
发明内容
本发明为了解决由于过期数据和历史数据的影响使数据流异常检测结果的精度降低问题,从而提出了基于分层聚类的滑动窗口多数据流异常检测方法(High Sliding windows stream方法,简称:HSWStream方法)。
基于分层聚类的滑动窗口多数据流异常检测方法包括下述步骤:
步骤一、设定滑动窗口尺寸N,通过传感器采集多数据流中第一个窗口的数据流元素作为离线数据进行初始K均值聚类,获得k个做聚结构,完成做聚结构的离线初始化,执行步骤二;
其中,N正整数,N大于等于1000,k为设定的在线做聚的聚类特征指数直方图的最大值,
步骤二、通过传感器采集多数据流中第T个数据流元素,根据步骤一获得的k个做聚结构,进行在线做聚,获得k’个聚类特征指数直方图,执行步骤三;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310364401.0/2.html,转载请声明来源钻瓜专利网。