[发明专利]监测数据在线清洗的方法和设备有效
申请号: | 201811593041.0 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109684320B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 刘书明;吴以朋;吴雪 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 蒋冬梅;龙洪 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监测 数据 在线 清洗 方法 设备 | ||
本发明公开了一种监测数据在线清洗的方法和设备,其中,所述方法包括:根据历史监测数据构建参照数据集和参照标准分数z‑score序列;获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z‑score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z‑score序列对所述在线监测数据中的异常数据进行识别;存储清洗后的在线监测数据。通过本发明实施例,可有效控制监测数据的数据质量,提升监测数据的可用性。
技术领域
本发明涉及数据处理领域,尤指一种监测数据在线清洗的方法和设备。
背景技术
中国近几年发展起来的物联网、互联网等产业背后是海量数据的支持与先进数据分析技术的发展。然而,这些产业在某些传统行业(例如,供水、供电行业)的应用及对企业管理模式的影响速度却没有这些技术本身发展的那样迅速,甚至还存在着较大的距离。
在线监测数据反映系统的运行状况,是开展复杂系统(例如供水管网、电网)智能管理的依据,对各类数据的实时监管能力直接影响到开展系统智能化管理的成败。然而,多数传统行业的在线监测管理系统仅仅是传统意义上的SCADA(Supervisory Control AndData Acquisition,数据采集与监视控制)系统,主要有数据的采集、存储、展示、报表和曲线查询等功能。对于监测过程中出现的数据重复、数据缺失以及数据异常等问题,传统的SCADA系统都不能对其进行处理,直接把原始数据存储进入数据库。数据质量的失控对后续的数据分析与应用造成了极大障碍。
近年来,众多行业已经逐步重视起数据的质量控制,开发了针对图像数据、保单分红数据、医疗数据以及风力机组运行数据等数据的清洗方法。但是,相关技术中,大部分只是针对数据重复等单一问题进行清洗,并不能满足对数据进行全面的处理的需要。
发明内容
为了解决上述技术问题,本发明提供了一种监测数据在线清洗的方法和设备。
为了达到本发明目的,本发明提供了一种监测数据在线清洗的方法,包括:
根据历史监测数据构建参照数据集和参照标准分数z-score序列;
获取在线监测数据,对所述在线监测数据进行清洗操作,所述清洗操作包括如下至少之一:去除所述在线监测数据中的重复数据、根据参照数据集和参照z-score序列对所述在线监测数据中的缺失数据进行估计和填补、根据参照数据集和参照z-score序列对所述在线监测数据中的异常数据进行识别;
存储清洗后的在线监测数据。
可选地,所述根据历史监测数据构建参照数据集和参照z-score序列,包括:
为所述历史监测数据添加时间标识属性,所述时间标识属性表示监测数据对应于一天中第i个时刻,其中i为整数,范围是1~g,g为每天的采样个数;
按照所述时间标识属性,根据所述历史监测数据生成g个第一向量vi,所述第一向量vi代表p天中所有第i个时刻的数据,使用每个第一向量中所有非空数据的均值填补相应的第一向量中的空值;p为所述历史监测数据的天数;
删除所述第一向量vi中的异常数据,得到第二向量wi,所述第二向量wi中的元素构成参照数据集;
计算所述第二向量wi的均值μi和标准差σi,根据所述均值μi和标准差σi对每个第二向量wi进行z-score标准化操作,选取标准化操作后得到的每个向量中的最后一个值,构成含有g个数据的参照z-score序列rz。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811593041.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置