[发明专利]一种基于距离的异常数据检测方法及系统有效

专利信息
申请号: 201610251384.3 申请日: 2016-04-21
公开(公告)号: CN107305563B 公开(公告)日: 2021-04-13
发明(设计)人: 张华宾;刘亚萌;洪莲 申请(专利权)人: 北京暖流科技有限公司
主分类号: G06F16/907 分类号: G06F16/907
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 距离 异常 数据 检测 方法 系统
【权利要求书】:

1.一种异常数据检测方法,其特征在于:包括以下步骤:

(1)确定需要处理的数据集合S,S中的元素数量大于1;

(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;

(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:

则第i个分隔区间为Di=[minValue+(i-1)*minD,minValue+i*minD)其中i=1,……,N;N通过观察确定的任意整数,N大于1;

(4)统计落在每个区间Di范围上数据的数量;

(5)给出数量阈值k,对各个区间进行分类,若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;

(6)对异常点候选区间进行判定,判断规则为:

对于任意一个p∈S(k),满足:

式中distance(p,q)—p与q之间的距离;value(p)——p的值;value(q)—q的值;S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合;

(7)依据第(6)步规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间,剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定;

基于上述原理及检测方法,对于供热系统耗热量的异常数据检测方法,具体按照如下步骤进行处理:

(1)在供热系统进行运行调节或者热费分摊计算时,楼栋热量表采集的“累计耗热量”Qc,每个“累计耗热量”Qc,i对应的记录均有一个采样时间τi数据,根据式(3),可得楼栋日耗热量Qdh,确定楼栋日耗热量为处理数据的集合S

式中Qdh,i——τi时刻的日耗热量,单位kWh/d;

Qc,i——时刻的累计耗热量,单位kWh;

τi——采样时间,单位为d;

(2)提取需要处理的数据集合中的最小日耗热量min Qdh和最大日耗热量数据maxQdh;

(3)将取值范围(minQdh,maxQdh)等分成N个区间,N取40,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(4)计算:

则第i个分隔区间为Di=[minQdh+(i-1)*minD,minQdh+i*minD)

其中i=1,……,N;

(4)统计落在每个区间Di范围上数据的数量;

(5)给出数量阈值k,k取2;对各个区间进行分类,若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间;

(6)对异常点候选区间进行判定,判断规则为:

对于任意一个p∈S(k),满足:

式中S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合;

(7)基于上述规则,按照下述方式进行操作:热量表作为数据采集模块,将实时采集的数据上传至中心服务器,中心服务器收到数据后,第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间,剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定,首先计算“日耗热量”Qdh,再采用上述提供的方法对“日耗热量”进行异常点检测识别,进而识别出“累计耗热量”的故障数据;

基于上述原理及检测方法,对于用户室温的异常数据检测方法,在获取了某个用户间隔30分钟的大量室温数据后,对室温进行异常点检测,具体按照如下步骤进行处理:

(1)确定用户室温数据为处理数据的集合S;

(2)提取需要处理的数据集合中的最低温度minT和最高温度maxT;

(3)将取值范围(minT,maxT)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(6)计算:

则第i个分隔区间为

Di=[minT+(i-1)*minD,minT+i*minD)

其中i=1,……,N;N取10;

(4)统计落在每个区间Di范围上数据的数量;

(5)给出数量阈值k,对各个区间进行分类,若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量k,将该区间分类为正常区间,k取5;

(6)对异常点候选区间进行判定,判断规则为:

对于任意一个p∈S(k),满足:

式中S(normal)——包含所有最初被标定为正常区间中的数据的集合,S(k)——异常点区间内所有数据的集合;

(7)基于上述规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间,剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京暖流科技有限公司,未经北京暖流科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610251384.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top