[发明专利]一种生产业务噪声数据检测和分离方法在审
申请号: | 201710539579.2 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107330092A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 邬蓉蓉;张炜;蒲金雨;赵坚;张玉波;王乐;张磊 | 申请(专利权)人: | 广西电网有限责任公司电力科学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙)45117 | 代理人: | 戴燕桃,巢雄辉 |
地址: | 530023 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生产 业务 噪声 数据 检测 分离 方法 | ||
技术领域
本发明涉及信息处理技术领域,特别是涉及到一种生产业务噪声数据检测和分离方法。
背景技术
数据质量的提高有利于对数据价值信息的挖掘,并构建新的知识模型支持生产决策和预判,能够提升设备的安全性,降低设备的故障,减少由于缺陷和故障导致的经济损失,同时提升设备的利用效率,减少重复投资和浪费,延长设备使用寿命,降低资产的报废净值率。
在生产过程中不可避免会引进一些生产业务噪声数据,这些噪声数据的存在,大大降低了数据的质量。因此,有必要对这种生产业务噪声数据进行检测并剔除。
发明内容
为了克服现有技术中的不足,本发明提出了一种生产业务噪声数据检测和分离方法,目的在于识别并剔除生产业务噪声数据,提高数据质量。本发明采用的技术方案为:
一种生产业务噪声数据检测和分离方法,包括以下步骤:
S1:利用数据自身分布特征检测出单维度数据集中的噪声数据,形成新数据组;
S2:利用箱型图方法在所述新数据组中识别并剔除离群值和异常值,得到目标数据;
S3:利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据,得到目标数据。
优选的,所述步骤S1的具体方法为:
假设有一组数据如下:
序号1234 …n
数据E_1E_2E_3E_4 …E_n
(1)将数据集切等分成αn个区间(α可取1,10,100,1000),区间大小为
θ=(Max{E_1,E_2,…,E_n }-Min{E_1,E_2,…,E_n})/αn;
(2)截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E。
优选的,所述步骤S2的具体方法为:
利用箱型图方法,对所述新数据组剔除离群值,得到非离群数据组[ Q_1-3IQR, Q_3+3IQR],再取非异常数据组[Q_1-1.5IQR, Q_3+1.5IQR],得到目标数据;
其中:Q_1为第一分位数,Q_3为第三分位数,IQR为四分位间距IQR=Q_3-Q_1。
优选的,所述步骤S3的具体方法为:
(1)利用基于欧几里德距离的聚类方法将数据集分为多个簇;
(2)识别不能归并到任何一簇中的数据,这些数据即为孤立点或奇异点;
(3)将所述孤立点或奇异点进行剔除处理。
优选的,所述步骤S3中的聚类方法为回归分析方法。
本发明的有益效果是:使用本发明的方法可以有效识别并剔除生产业务噪声数据,从而在提高数据质量的同时,也减少后期数据质量治理的工作量和难度,提升数据的利用效率。
附图说明
图1 是本发明的流程图。
图2 是本发明利用数据分布特征检测单维度数据集中噪声数据的示意图。
图3 是本发明利用箱型图识别并剔除离群值和异常值的示意图,其中:1为异常值,2为上边缘,3为上四分位数,4为中位数,5为下四分位数,6为下边缘。
图4 是本发明利用回归方法识别多维数据集中噪声数据的示意图,其中:1为类别1,2为类别2,3为孤立点。
具体实施方式
一种生产业务噪声数据检测和分离方法,如图1所示,包括以下步骤:
S1:利用数据自身分布特征检测出单维度数据集中的噪声数据,形成新数据组,如图2所示。噪声是指被测变量的一个随机错误和变化。一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值。其具体方法为:
假设有一组数据如下:
序号12 3 4…n
数据E_1E_2 E_3 E_4…E_n
(1)将数据集切等分成αn个区间(α可取1,10,100,1000),区间大小为
θ=(Max{E_1,E_2,…,E_n }-Min{E_1,E_2,…,E_n})/αn;
(2)截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E。
S2:利用箱型图方法在所述新数据组中识别并剔除离群值和异常值,得到目标数据。如图3所示,其具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西电网有限责任公司电力科学研究院,未经广西电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710539579.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法和装置
- 下一篇:一种基于文件系统的数据回收方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置