[发明专利]基于分层聚类的滑动窗口多数据流异常检测方法有效
申请号: | 201310364401.0 | 申请日: | 2013-08-20 |
公开(公告)号: | CN103400152A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 刘大同;庞景月;彭宇;罗清华;彭喜元 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 岳泉清 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层 滑动 窗口 多数 异常 检测 方法 | ||
1.基于分层聚类的滑动窗口多数据流异常检测方法,其特征在于:它包括下述步骤:
步骤一、设定滑动窗口尺寸N,通过传感器采集多数据流中第一个窗口的数据流元素作为离线数据进行初始K均值聚类,获得k个做聚结构,完成做聚结构的离线初始化,执行步骤二;
其中,N正整数,N大于等于1000,k为设定的在线做聚的聚类特征指数直方图的最大值,
步骤二、通过传感器采集多数据流中第T个数据流元素,根据步骤一获得的k个做聚结构,进行在线做聚,获得k’个聚类特征指数直方图,执行步骤三;
其中,T为正整数,T的初始值为1;k’≤k,k和k’均为正整数,
步骤三、判断是否接收到对步骤二获得的k’个聚类特征指数直方图发出的查询指令,若是执行步骤六;若否则执行步骤四;
步骤四:令T=T+1,通过传感器采集多数据流中第T个数据流元素,并根据步骤二获得的k’个聚类特征指数直方图进行在线做聚,获得更新的k’个聚类特征指数直方图,执行步骤五;
步骤五、判断是否接收到对步骤四获得的k’个聚类特征指数直方图发出查询指令,若是执行步骤六;若否则执行步骤七;
步骤六、根据k’个聚类特征指数直方图,提取每个聚类特征指数直方图的头节点中的均值项,从而获得k’个聚类特征指数直方图的k’个均值项,执行步骤八;
步骤七:令T=T+1,通过传感器采集多数据流中第T个数据流元素,根据上一个数据元素到达后获得的k’个聚类特征指数直方图进行在线做聚,所述的上一个数据元素为第T-1个数据元素,并获得更新的k’个聚类特征指数直方图,执行步骤五;
步骤八、设立离线聚类的类别数目macro_k,根据步骤七获得的k’个聚类特征指数直方图的k’个均值进行离线K均值聚类,通过余弦系数作为度量函数,获得macro_k个离线聚类类别,并执行步骤九;
步骤九、根据步骤八获得的macro_k个离线聚类类别,将macro_k个聚类类别中其中含有孤立点或者数据元素个数小于或等于窗口尺寸N的5%的聚类类别作为异常类别,从而获取数据异常检测结果。
2.根据权利要求1所述的基于分层聚类的滑动窗口多数据流异常检测方法,其特征在于:步骤七所述的根据上一个数据元素到达后获得的k’个聚类特征指数直方图进行在线做聚,所述的上一个数据元素为第T-1个数据元素,并获得更新的k’个聚类特征指数直方图的具体过程为:
步骤1、获取数据流中第T个数据流元素,执行步骤2;
步骤2、判断滑动窗口内的数据量是否大于滑动窗口尺寸N,若大于执行步骤3,若小于或者等于则执行步骤5;
步骤3、删除k’个聚类特征指数直方图中具有最小数据编号的时间特征向量,执行步骤4;
步骤4、更新k’个聚类特征指数直方图的头节点,该头节点包括平均数据编号、均值、相关系数的边界值以及平均数据元素的个数,执行步骤5;
步骤5、分别计算多数据流中第T个数据流元素与k’个聚类特征指数直方图的头节点的均值项的相关系数,获得k’个相关系数的最大值,执行步骤6;
步骤6、分别判断步骤5中获得的每个相关系数的最大值是否大于或者相应的聚类特征指数直方图头节点中相关系数的边界值,若大于或者等于则执行步骤7,若小于则执行步骤9;
步骤7、将多数据流中第T个数据流元素加入与该相关系数对应的聚类特征指数直方图的数据编号最大的时间特征向量中,执行步骤8;
步骤8、更新步骤7所述的聚类特征指数直方图及该聚类特征指数直方图的头节点,且令T=T+1,执行步骤1;
步骤9、判断执行步骤6后聚类特征指数直方图个数k’是否小于或者等于设定的在线做聚的聚类数目k,若小于执行步骤12,若等于执行步骤10;
步骤10、设定两个参数Low_boundry,high_boundry,判断聚类特征指数直方图是否满足删除聚类特征指数直方图的条件,即
(min_mean_t-min_window-t)<
(max_window_t-min_window_t)*high_boundry (1)
TN>N*low_boundry (2)
其中,min_mean_t为所有聚类特征指数直方图中含有的时间特征向量中具有数据元素的最小数据编号;max_window_t为所有聚类特征指数直方图中含有的时间特征向量中具有数据元素的最大数据编号,min_window_t为聚类特征指数直方图中数据元素对应的数据编号平均值的最小值;
若同时满足公式(1)和公式(2)则执行步骤11,若否执行步骤14;
步骤11、删除含有最小平均数据编号的聚类特征指数直方图,执行步骤12;
步骤12、新建一个聚类特征指数直方图,执行步骤13;
步骤13、将多数据流中第T个数据流元素存储在步骤12所述的新建的聚类特征指数直方图中,且令T=T+1,执行步骤1;
步骤14、将聚类特征指数直方图中头节点的平均数据编号排列中排在最后的两个聚类特征指数直方图进行合并,更新合并后的聚类特征指数直方图及头节点,执行步骤12。
3.根据权利要求1所述的基于分层聚类的滑动窗口多数据流异常检测方法其特征在于:步骤八所述的离线K均值聚类为:
在多数据流中,在线聚类得到k’个聚类特征指数直方图,将其头节点中的均值作为离线聚类的数据,k’个节点的均值作为K均值聚类算法的输入,macro_k为离线聚类的类别个数,K均值聚类算法中的相似性度量函数分别取欧氏距离和夹角余弦。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310364401.0/1.html,转载请声明来源钻瓜专利网。