[发明专利]一种支持动态更新的在线属性异常点检测方法有效

专利信息
申请号: 201010237922.6 申请日: 2010-07-27
公开(公告)号: CN101908065A 公开(公告)日: 2010-12-08
发明(设计)人: 陈刚;寿黎但;胡天磊;陈珂;曹晖 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林怀禹
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 支持 动态 更新 在线 属性 异常 检测 方法
【说明书】:

技术领域

发明涉及数据挖掘、离群点检测和流数据系统管理技术,特别是涉及一种支持动态更新的在线属性异常点检测方法。

背景技术

异常点检测是数据挖掘领域中最重要的应用技术方法之一,不同于其它常见的数据挖掘方法,异常点检测是力求在海量数据中找出相对孤立、离群的异常点以及异常模式。早期的数据挖掘系统大多只将数据中的异常点看作噪音,而异常点检测也主要用于对噪音进行清洗处理。但是随着海量数据的产生,异常数据往往能够体现更大的价值,因此异常点检测在现实中的应用也愈加广泛,如网络入侵检测、银行信用欺诈等。

进行异常点检测的一个首要前提是给出合理的异常点定义,继而应用相关的方法进行检测。现有的异常点检测方法所基于的异常点定义都可以称为分类异常点,其根本思想是将分类数据中的孤立类别数据定义为异常点。然而,这种定义在现实应用中缺乏灵活性以及实用性,用户需要检测的异常点往往是仅针对于整体数据集中用户关注的某一部分数据,传统的分类异常点显然无法解决此类实际需求。

此外,随着互联网技术的飞速发展以及对海量数据的处理需求,流数据系统应用越来越普遍,且大部分重要系统均需要实时监测异常点,如视频监控、银行交易安全监测等。此类流数据系统的特点是数据量无限且持续产生到达,限于存储及内存限制应用系统无法保存所有数据,而且限于实时要求往往只有单遍扫描机会。因此,对于流数据系统需要支持基于滑动窗口的查询检测,窗口内的数据随时间动态滑动更新,此时需要检测方法能够实时针对最新数据给出当前异常点。由于流数据系统往往需要对大量动态数据进行实时检测,而在多数情况下实际部署机器无法提供相应处理及存储能力,需要提供一种高效的检测方法。

流数据系统中的异常点检测是一个崭新的研究领域并有着重要的实用价值,但目前仍然缺乏一个成熟的技术方案,因此需要提供能够支持动态更新的在线属性异常点检测方法,在保证检测结果精度的前提下能够通过近似方法处理流数据系统中的海量动态数据。

发明内容

针对上述背景技术中存在的问题,为了向用户提供更加灵活、能够反映数据属性相关性的异常点检测结果,提过针对流数据系统的在线异常点检测,能够保证在高负载压力下为用户提供准确实时的检测结果输出,本发明的目的在于提供一种支持动态更新的在线属性异常点检测方法。

本发明采用的技术方案的步骤如下:

(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;

(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;

(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;

(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;

(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。

所述步骤(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据,该步骤选取的数据模型需要满足能够快速高效维护数据动态更新,满足在主流应用服务器部署实施,因此采用当前业内主流应用模型滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理。

所述步骤(2)使用在线聚类方法对流数据进行持续动态聚类,此线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态;方法的具体实施包含以下内容:

1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;

2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径;

3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时完成对划分的更新;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010237922.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top