[发明专利]一种工业实验数据异常点检测方法及装置有效
申请号: | 201810669806.8 | 申请日: | 2018-06-26 |
公开(公告)号: | CN108829878B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 金福生;金昊宸;韩翔宇;袁汉宁 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工业 实验 数据 异常 检测 方法 装置 | ||
1.一种基于工业实验数据异常点检测装置的工业实验数据异常点检测方法,其特征在于:针对每一个测试变量在一次实验中随时间的数据变化曲线,根据多次历史实验中该变量的整体变化情况,确定可能表示机器启动和关闭为主变化的“状态代表时间点”,然后检测测试样本中“状态代表时间点”的取值是否在正常状态范围内,对于取值超出正常范围内的情况,将该测试样本直接判定为异常;否则根据“状态代表时间点”的取值情况和历史数据,拟合出数据标准,并根据测试样本中各时间点取值相对数据标准的偏差,通过聚类算法检测出偏差程度较绝大多数样本有很大不同的时间点判定为异常点;包括以下步骤:
步骤一、根据历史实验数据,确定该变量的“状态代表时间点”;
具体到实验中的“状态代表时间点”相比于其他时间点的最大特征即是“突变”,由于机器启动或关闭操作,其变化要更明显于其他时间点;选择以每个时间点的数值相较前一时间点的数值变化的绝对值作为“变化”的衡量标准,将多次历史数据在该点的变化值的绝对值求平均值作为最终的标准,各时间点中变化平均值最大的即是“状态代表时间点”;
每次实验中变化值计算如下式(1):
Rn=|xn-xn-1| (1)
其中,Rn表示实验样本在时间点n的变化值,xn表示样本在时间点n的取值;xn-1表示样本在时间点n-1的取值;
步骤二、检测本次实验中“状态代表时间点”处的取值是否在正常范围内,如在正常范围内,则跳至步骤三;如不在正常范围内将测试样本判定为异常,跳至步骤六;
考虑到实际情况,正常的“状态代表时间点”取值可能根据实验时机器状态的不同有不同的稳定范围,对历史数据中“状态代表时间点”的取值使用Kmeans算法进行聚类,确定机器变化状态可以分为几种类别,其中具体聚类的簇个数可以由画图分布得到;
具体到测试样本“状态代表时间点”的归类,首先计算测试样本在该时间点的数值和上面得到的几个聚类中心的距离,判断所属类;然后分别计算对应类中所有点和聚类中心之间的距离,选择其中距离聚类中心最远的两点m和n,设两点各自到聚类中心的距离为lm和ln,则测试样本到聚类中心的可接受距离范围如下式(2)所示,在“状态代表时间点”处取值超出可接受范围的样本被判定为异常,跳至步骤六;如取值在可接受范围内,则跳至步骤三;
每次实验中变化值计算如下式(2):
φ=[0,(|lm+ln|+5|lm-ln|)/2] (2)
其中,φ表示测试样本“状态代表时间点”的合理取值范围,lm和ln表示同类历史数据中距离聚类中心最远的两点;
步骤三、对于“状态代表时间点”取值正常的情况,从历史数据中选择“状态代表时间点”取值和本次实验最相近的一次实验,将选取实验中数据的变化曲线作为本次实验的“数据标准”;
对于正常的情况,各个时间点对应的数据特征和其数据标准的差异程度应该在一个相同范围,而和数据标准的差异程度明显不同于其他时刻的点被认为是异常点,因此在历史数据上选取“状态代表时间点”取值和测试样本最接近的一个样本,将其后续数据的变化特征作为测试样本的“数据标准”;
步骤四、计算测试样本中各个时间点处取值与数据标准之间的偏差;
工业数据中误差容忍度的不同,这就导致对于历史数据中偏差范围不同,即误差容忍度不同的变量,在提取差异特征时应该有不同的约束效果,因此选择以该时间点测试样本与数据标准的差值,和历史同类数据相对数据标准的差值的平均值与该差值的和,取比值作为时间窗的差异特征;
具体差异特征的计算如下式(3):
其中,δn表示测试样本在时间点n的一项差异特征,yn表示样本在时间点n的取值与数据标准的差值,σn表示测试样本对应类的历史数据在时间窗或时间点n数据特征相对数据标准的差值的平均值,Δ表示一个很小的数防止出现除以零的情况,本文中Δ取1e-10;
步骤五、通过密度聚类,将不属于最大样本簇的时间点判断为异常点;
输入:样本集D=(x1,x2,...,xm),其中m为测试样本中所有的时间点个数,邻域参数(∈,Minpts),∈为邻域距离阈值,Minpts为距离∈的邻域中样本个数阈值;
输出:簇划分C;
初始化核心对象集合Ω为空集,当前聚类簇数k=0,未访问样本集Г为样本集D;
对于j=1,2,…,m,按下面步骤处理每个样本:
步骤(1)通过距离度量方式,找到样本xj的∈-邻域子样本集N∈(xj);
步骤(2)如果子样本集样本个数满足|N∈(xj)|≥MinPts,将样本xj加入核心对象集合Ω,Ω=Ω∪{xj};
步骤(3)在核心对象集合Ω中随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o},更新未访问样本集合Г=Γ-{o};
步骤(4)在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′),令Δ=N∈(o′)∩Г,更新当前簇样本集合Ck=Ck∪Δ,更新Ωcur=Ωcur∪(N∈(o′)∩Ω);
步骤(5)如果当前簇核心对象队列为空集,则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,...,Ck},更新核心对象集合Ω=Ω-Ck,否则重复步骤(4);
步骤(6)如果核心对象集合Ω为空集,则算法结束,否则继续进行步骤(3);
最后输出结果的簇划分C={C1,C2,...,Ck}即为针对工业实验数据的初步异常点检测结果;
步骤六、给出异常点检测结果的指示,完成了一种工业实验数据异常点检测方法;
其中所基于的工业实验数据异常点检测装置,包括“状态代表时间点”确定模块、数据变化特征拟合模块、差异特征提取模块以及异常时间点检测模块;
其中,“状态代表时间点”确定模块又包括“状态代表时间点”判断模块和“状态代表时间点”取值检测模块;
该装置中各模块的连接关系如下:
“状态代表时间点”确定模块与数据变化特征拟合模块相连;数据变化特征拟合模块与差异特征提取模块相连,差异特征提取模块与异常时间点检测模块相连;
该装置中各模块的功能如下:
“状态代表时间点”确定模块的功能是:根据历史实验数据,确定表示变量机器启动、关闭状态变化的“状态代表时间点”,判断测试样本可能的状态类别,并以此检测“状态代表时间点”的取值是否在正常范围内;
数据变化特征拟合模块的功能是:对于测试样本中“状态代表时间点”处的取值在正常范围内的情况,选择历史数据中该变量在“状态代表时间点”取值和测试样本最相近的一次实验,将选取实验中数据的变化曲线作为测试样本的“数据标准”,即拟合得到的数据特征;
差异特征提取模块的功能是:计算测试样本中各个时间点处取值与数据标准之间的差值,将差值处理后作为差异特征提取;
异常时间点检测的功能是:将提取得到的差异特征用基于密度的聚类算法进行聚类分析,根据聚类结果将不属于最大样本簇的时间点判断为异常点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810669806.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种监测数据显示方法及其应用
- 下一篇:一种充电桩数据监控方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置