[发明专利]基于聚类分析的异常数据识别方法、系统和存储介质在审
申请号: | 201911134406.8 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110941648A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 朱子朋;程伟平;龙志宏 | 申请(专利权)人: | 广州市自来水有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510600 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 聚类分析 异常 数据 识别 方法 系统 存储 介质 | ||
本发明公开了基于聚类分析的异常数据识别方法、系统和存储介质,方法包括以下步骤:获取各监测点的历史监测数据,历史监测数据包括:压力数据和/或流量数据;获取各监测点的主要参数,主要参数包括:历史监测数据的均值和/或标准方差;对各监测点间历史监测数据的相关性进行聚类分析;根据聚类分析的结果,将监测点的历史监测数据进行线性拟合处理,得到拟合函数;根据拟合函数得到监测点数据的预测值;根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别,能够准确、简单而直观地识别异常数据。本发明作为一种基于聚类分析的异常数据识别方法、系统和存储介质,可广泛应用于数据处理技术领域。
技术领域
本发明涉及数据处理技术,尤其是一种基于聚类分析的异常数据识别方法、系统和存储介质。
背景技术
随着信息化的不断发展和互联网的广泛应用,政府和企业对产生的大量监测数据需要进行有效管理,而大量的历史数据和新产生的数据中存在很多异常数据。如果不能对这些异常数据进行有效识别,可能造成决策失误、工作效率的降低等问题。
目前对数据集进行异常检测的方法主要有下列方法:(1)采用统计学的方法来检测数值型属性,计算属性值的均值和标准差,考虑每一个属性的置信区间来识别异常属性和记录;(2)采用基于模式的方法来发现不符合数据集中现存模式的异常记录;(3)采用关联规则的方法来发现数据集中不符合具有高置信度和支持度的规则的异常数据。
而每一种方法都存在缺点,基于统计学方法的异常识别方法,识别异常数据的依据需要具有很强的可靠性,容易出错;基于模式的方法理论多且原理复杂,识别难度高;基于关联规则异常识别,在关联前找出需要对哪些数据进行关联要经过大量分析,同样比较繁琐。同时,以上方法的理论无法与供水系统监测网进行良好的结合。因此,如何准确、简单而直观地对监测系统中的大数据进行异常数据识别就成为了一个重要研究项目。
发明内容
有鉴于此,为了解决上述技术问题,本发明的目的是提供准确、简单而直观的基于聚类分析的异常数据识别方法、系统和存储介质。
本发明采用的技术方案是:基于聚类分析的异常数据识别方法,包括以下步骤:
获取各监测点的历史监测数据,历史监测数据包括:压力数据和/或流量数据;
获取各监测点的主要参数,主要参数包括:历史监测数据的均值和/或标准方差;
对各监测点间历史监测数据的相关性进行聚类分析;
根据聚类分析的结果,将监测点的历史监测数据进行线性拟合处理,得到拟合函数;
根据拟合函数得到监测点数据的预测值;
根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别。
进一步,所述获取各监测点的历史监测数据的步骤中,包括以下步骤:
基于预设的数据同步误差要求,以预设的时间间隔为采样周期获取历史监测数据;
以监测点为单元对获取的历史监测数据进行存储。
进一步,还包括以下步骤:
对历史监测数据进行预处理并储存,其中,预处理的步骤包括:
将错误数据的内容替代为空集;
将空集进行历史监测数据的均值的填充处理。
进一步,所述对各监测点间历史监测数据的相关性进行聚类分析的步骤中,包括以下步骤:
将各监测点作为不同的分类对象,计算两两分类对象之间的距离;
找出距离最小的两个分类对象,并将所述两个分类对象合并为一个新的分类对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市自来水有限公司,未经广州市自来水有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911134406.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置