[发明专利]一种支持动态更新的在线属性异常点检测方法有效
| 申请号: | 201010237922.6 | 申请日: | 2010-07-27 |
| 公开(公告)号: | CN101908065A | 公开(公告)日: | 2010-12-08 |
| 发明(设计)人: | 陈刚;寿黎但;胡天磊;陈珂;曹晖 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林怀禹 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 支持 动态 更新 在线 属性 异常 检测 方法 | ||
1.一种支持动态更新的在线属性异常点检测方法,其特征在于该方法的步骤如下:
(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;
(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;
(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;
(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;
(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。
2.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据,该步骤选取的数据模型需要满足能够快速高效维护数据动态更新,满足在主流应用服务器部署实施,因此采用当前业内主流应用模型滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理。
3.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(2)使用在线聚类方法对流数据进行持续动态聚类,此线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态;方法的具体实施包含以下内容:
1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;
2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径;
3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时完成对划分的更新;
4)对时间聚类特征切片维护,实现聚类信息的动态更新,在完成对新生成数据的动态聚类后,需要及时更新聚类特征概要信息,由于采用滑动窗口模型,数据不断更新,产生新数据的同时大量陈旧数据需要过期,因此在对新数据聚类的同时还需要消除过期数据的概要信息;
5)根据在线聚类划分总数,进行必要的聚类合并操作保持聚类结果的质量以及总数的稳定;由于采用的聚类方法的特点,以及流数据不断生成的大量全新数据点,滑动窗口内将出现大量的微型聚簇,这些微型划分会严重降低最终聚类结果质量,同时将会占用大量内存,消耗系统资源,因此需要进行聚类合并。
4.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,需要在线维护后续异常点检测步骤中所需要的数据相关信息,采用基于距离的度量来计算数据点间的相关性以及检测异常点,因此对于每个数据点需要计算在在其指定距离领域内的邻居数目,当邻居总数低于用户指定阈值时,则说明该数据点异常,另外由于属性异常点的特点实际检测过程发生在每个独立的聚类划分中,所以在数据相关信息的维护过程中对每个聚类仅需维护更新其内部数据点相关信息。
5.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(3)在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构,在线维护过程中还需要针对动态更新的流数据对链表进行动态维护更新操作,具体步骤包括:
1)对于刚进入聚类的新数据点,生成对应节点加入链表尾部,接下来对链表进行反向遍历,计算各个前序节点与新节点的距离及邻居关系;
2)随着滑动窗口的滑动,将过期数据对应节点由链表中移除,保证之后检测过程中在其后序邻居的前向邻居数组中节点号为无效;
3)在发生聚类合并操作后,同时需要合并两个聚类的链表及更新节点信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010237922.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于保护甲板施工人员安全的工艺装置
- 下一篇:移动设备供电系统





