[发明专利]一种基于距离的异常数据检测方法及系统有效
申请号: | 201610251384.3 | 申请日: | 2016-04-21 |
公开(公告)号: | CN107305563B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 张华宾;刘亚萌;洪莲 | 申请(专利权)人: | 北京暖流科技有限公司 |
主分类号: | G06F16/907 | 分类号: | G06F16/907 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 距离 异常 数据 检测 方法 系统 | ||
1.一种异常数据检测方法,其特征在于:包括以下步骤:
(1)确定需要处理的数据集合S,S中的元素数量大于1;
(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;
(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:
则第i个分隔区间为Di=[minValue+(i-1)*minD,minValue+i*minD)其中i=1,……,N;N通过观察确定的任意整数,N大于1;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,对各个区间进行分类,若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
式中distance(p,q)—p与q之间的距离;value(p)——p的值;value(q)—q的值;S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合;
(7)依据第(6)步规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间,剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定;
基于上述原理及检测方法,对于供热系统耗热量的异常数据检测方法,具体按照如下步骤进行处理:
(1)在供热系统进行运行调节或者热费分摊计算时,楼栋热量表采集的“累计耗热量”Qc,每个“累计耗热量”Qc,i对应的记录均有一个采样时间τi数据,根据式(3),可得楼栋日耗热量Qdh,确定楼栋日耗热量为处理数据的集合S
式中Qdh,i——τi时刻的日耗热量,单位kWh/d;
Qc,i——时刻的累计耗热量,单位kWh;
τi——采样时间,单位为d;
(2)提取需要处理的数据集合中的最小日耗热量min Qdh和最大日耗热量数据maxQdh;
(3)将取值范围(minQdh,maxQdh)等分成N个区间,N取40,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(4)计算:
则第i个分隔区间为Di=[minQdh+(i-1)*minD,minQdh+i*minD)
其中i=1,……,N;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,k取2;对各个区间进行分类,若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
式中S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合;
(7)基于上述规则,按照下述方式进行操作:热量表作为数据采集模块,将实时采集的数据上传至中心服务器,中心服务器收到数据后,第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间,剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定,首先计算“日耗热量”Qdh,再采用上述提供的方法对“日耗热量”进行异常点检测识别,进而识别出“累计耗热量”的故障数据;
基于上述原理及检测方法,对于用户室温的异常数据检测方法,在获取了某个用户间隔30分钟的大量室温数据后,对室温进行异常点检测,具体按照如下步骤进行处理:
(1)确定用户室温数据为处理数据的集合S;
(2)提取需要处理的数据集合中的最低温度minT和最高温度maxT;
(3)将取值范围(minT,maxT)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(6)计算:
则第i个分隔区间为
Di=[minT+(i-1)*minD,minT+i*minD)
其中i=1,……,N;N取10;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,对各个区间进行分类,若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间,k取5;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
式中S(normal)——包含所有最初被标定为正常区间中的数据的集合,S(k)——异常点区间内所有数据的集合;
(7)基于上述规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间,剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京暖流科技有限公司,未经北京暖流科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610251384.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生成KML文件的方法、装置及移动终端
- 下一篇:一种数据处理的方法和设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置