[发明专利]一种基于距离的异常数据检测方法及系统有效
申请号: | 201610251384.3 | 申请日: | 2016-04-21 |
公开(公告)号: | CN107305563B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 张华宾;刘亚萌;洪莲 | 申请(专利权)人: | 北京暖流科技有限公司 |
主分类号: | G06F16/907 | 分类号: | G06F16/907 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 距离 异常 数据 检测 方法 系统 | ||
本发明涉及一种基于距离的异常数据检测方法,具体通过设置若干数据区间,并判断每个区间内的数据数量来判断所设置的区间是正常区间还是异常区间,从而检测出异常数据的方法。本发明还涉及一种使用该方法来进行异常数据检测的系统,其包括数据采集模块、中央服务器和内置于中央服务器内的数据检测模块构成,采集模块用来采集数据,上传至中央服务器,中央服务器通过内置的数据检测模块按照本发明提供的方法进行异常数据检测和剔除。
技术领域
本发明属于市政、信息处理及智能楼宇领域,具体涉及一种基于距离的异常数据检测方法,本发明还涉及实现该方法的系统。
背景技术
随着物联网和互联网技术的发展,在供热、空调、给水、排水等市政以及智能楼宇领域,市政系统中诸如压力、温度、流量、智能楼宇领域的诸如能源消耗、室内温度、湿度等参数的测量和采集都采用自动化仪表,测量数据自动采集,并实现数据远程传输。这种方式一方面使得数据能够实时采集,是系统实现自控的必要环节,另一方面实现了高频率的电子化数据,方便管理人员运行管理和故障的诊断、处理等功能,提高服务品质的同时大大降低了能源消耗。然而随着数据采集种类的越来越多,采集的频次越来越高,数据数量越来越大,异常数据的产生难以避免,从而影响服务质量、浪费能源甚至引起安全事故,因此在使用数据前必须进行异常数据的检测和剔除。
可以看到,这些数据具有如下特征:
(1)多数情况下,这些数据为时间序列数据,呈一维性特征,正常的时间序列数据具有时间自相关性,即如果两个测量的时间很接近,则这些测量的值通常非常相似。
(2)这些数据随着时间具有一定的变化规律,比如累积热量会随着时间递增,室外温度在24小时内呈现一定的周期性等等,考察不同变量的变化规律,以此对变量进行处理,可以得到一个在正常情况下数值比较稳定的新变量,比如可以将累积热量数据处理为日耗热量。
(3)在得到的新变量中,异常点将会明显地远离其他正常点,即异常点与正常点之间的差值将远大于正常点之间的差值。并且在新变量所有对象的取值区间内,异常点将位于区间的两端(或其中一端)。
目前已经提出的异常检测方法有很多种,主要有基于分布、距离、密度、聚类和分类的方法,但要么涉及的边界阈值选取存在一定困难,要么计算极其复杂,又或者人为限制了某个数据集中可能存在的异常点的数量,缺乏灵活性。
本发明基于上述数据特征,提出一种简单而又高效的异常数据检测方法以及实现该方法的系统。
发明内容
本发明提出一种基于距离的异常数据检测方法,其解决所述技术问题采用的技术方案包括如下步骤:
(1)确定需要处理的数据集合S,S中的元素数量大于1;
(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;
(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:
则第i个分隔区间为:
Di=[minValue+(i-1)*minD,minValue+i*minD)
其中i=1,……,N;N通过观察确定的任意整数,N大于1;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;
(6)对异常点候选区间进行判定,判断规则为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京暖流科技有限公司,未经北京暖流科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610251384.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生成KML文件的方法、装置及移动终端
- 下一篇:一种数据处理的方法和设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置