[发明专利]一种同构环境下计算节点异常检测方法在审
| 申请号: | 201410769068.6 | 申请日: | 2014-12-12 |
| 公开(公告)号: | CN104536996A | 公开(公告)日: | 2015-04-22 |
| 发明(设计)人: | 徐建;黄东东;张宏;李涛;李千目;张琨;陈龙;范志凯;许福 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱显国 |
| 地址: | 210094 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 同构 环境 计算 节点 异常 检测 方法 | ||
技术领域
本发明涉及异常检测技术,特别是一种基于数据挖掘技术的同构环境下异常节点的检测方法。
背景技术
一个计算节点的数据信息可以由一个多维矩阵表示,其度量维度包括CPU信息,I/O信息,网络信息等。由于度量维度较多,导致处理时会因为各种数据单位以及数量级的不同出现错误检测,所以首要的就是将数据进行预处理。
预处理的方法包括归一化,零均值法、白化处理等。对观测信号去均值的处理过程是从观测中减去信号的均值向量,使得观测信号成为零均值变量。同时还要对数据进行白化处理,白化处理可去除各观测信号之间的相关性,从而简化后续独立分量的提取过程。通常情况下,数据进行白化处理与不对数据进行白化处理相比,算法的收敛性较好,有更好的稳定性。
数据的特征抽取就是将数据矩阵进行简化和降维。由于表示计算节点数据的种类复杂导致了该矩阵的高维度,以及后续计算处理的复杂。所以数据的特征抽取则非常有必要。基于FastICA(Principal ComponentAnalysis)算法的特征抽取技术是一种基于独立分量的分析的识别算法。该算法是基于定点递推算法得到的,它对任何类型的数据都适用,同时它的存在对运用ICA分析高维的数据成为可能。又称固定点(Fixe d-Point)算法,是由芬兰赫尔辛基大学Hyvä;rinen等人提出来的。FastlCA算法本质上是一种最小化估计分量互信息的神经网络方法,是利用最大熵原理来近似负熵,并通过一个合适的非线性函数使其达到最优。这个算法具有很多神经算法里的优点:并行的、分布的、计算简单、要求内存小。
现有的数据流异常检测方法大致可以划分为基于密度的异常检测,基于网格的数据流异常检测和基于距离的异常检测。
基于密度的异常检测的基本思想是利用某一邻域内样本的密度来确定异常。LOF算法是基于密度的异常检测的代表性算法(Breunig M M,Kriegel H P,Ng R T,et al.LOF:identifying density-based local outliers[C]//ACM Sigmod Record.ACM,2000,29(2):93-104.)。该算法是一种基于局部密度的异常检测算法,能够较为准确的在密度分布不均匀的数据集合中发现异常数据对象。但是LOF算法并不适合直接用于数据流的异常检测,因为其时间复杂度较大,如果每得到一个新的数据对象都需要对所有数据对象的异常度重新进行计算,其代价是不可容忍的。因此,Pokrajac和Lazarevic等人对已有的静态LOF算法做出了改进,提出了动态的增量LOF算法(Pokrajac D,Lazarevic A,Latecki L J.Incremental local outlier detection for data streams[C]//Computational Intelligence and Data Mining,2007.CIDM 2007.IEEE Symposium on.IEEE,2007:504-515.)。增量LOF算法的核心思想就是当一个新的数据对象到来的时候,并不重新计算所有数据对象特征信息的值,而是只对受到新输入数据对象影响的那一部分数据对象的各个特征信息值进行更新。增量LOF算法在接收到一个新输入的数据对象时,其主要操作分为两个步骤:对于新输入的数据对象,计算其所需的特征信息值;对于受到新输入对象影响密度发生变化的邻居结点,挨个更新其特征信息值,对于没有受到影响的数据对象,不重新计算。采用这一策略之后,动态增量LOF算法在能够达到和重复执行静态LOF算法相当效果的同时,却大大降低了算法执行的时间复杂度,使得其适用于针对数据流的异常检测。然而,LOF算法并没有考虑不同维度值域的差异,可能导致部分维度的影响力显著大于其他维度;另外,其时间复杂度对于离线检测来说是可以接受的,但对实时检测来说还不实用。本发明针对LOF算法的上述两个局限性,提出的算法的时间复杂度为O(n),与数据流个数呈线性增加关系,能满足实时应用需要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410769068.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:频繁序列挖掘方法
- 下一篇:关键词的拓展方法和装置





