[发明专利]一种工业数据增补方法有效
申请号: | 201110286150.X | 申请日: | 2011-09-24 |
公开(公告)号: | CN103020079A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 吉琨 | 申请(专利权)人: | 国家电网公司;江苏瑞中数据股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工业 数据 增补 方法 | ||
技术领域
本发明属于数据挖掘技术领域,特别是涉及一种基于期望最大化和聚类分析的数据增补方法。
背景技术
随着计算机技术的发展以及自动化水平的提高,数据的存取速度不断增快,随之而来出现了大量的数据缺失。近年来,数据挖掘技术在各行各业得到了广泛的应用,为商业智能提供了辅助决策的能力。但在对实际环境的调查中发现,信息系统是不完备的,或者说存在某种程度上的不完备,从而导致工业数据存在缺失的现象。在实际的工业系统运营中,数据缺失的现象大量存在,而造成数据不完备的原因多种多样,可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障或者其他一些人为因素等等。处理缺失数据的方法有很多种而且各有其优缺点,最简单的方法就是删除含缺失值的记录,这种方法比较突兀,针对电力系统中的关键数据此方法不适用。另外就是为缺失值确定一个合理的估计值替换缺失的部分,称之为数据增补方法。
在增补数据时,主要常用以下方法:期望最大化算法简单易用,但是与历史数据关联不紧密,丧失了前后数据的关联性,从而导致估算数据与历史数据不吻合,而且算法收敛的进程相当慢;灰色聚类分析增强了数据的关联性,但是其反复迭代后无法保证的数据准确性。
一种基于期望最大化和聚类分析的缺失数据增补技术,结合了期望最大化算法简单易用和聚类高关联度的特性,通过二者的综合加快了算法的收敛速度,增强了缺失数据与完整数据的紧密程度,提高了增补数据的精确度。本发明正是为了实现一种高效的数据增补技术而开发实现的。
发明内容
为解决上述问题,本发明旨在提供一种基于期望最大化和聚类分析的数据增补技术,该技术在工业数据缺失的情况下,保证了增补数据的收敛速度、与历史数据的紧密度以及增补数据的精确度。本发明所针对的数据是工业生产中产生的缺失数据,此类缺失数据与真实历史数据具有较强的相关性、相似性,因此在使用本发明前,应存在一定量的历史数据。
本发明采用方法为:
步骤A:确定参照序列、缺失序列。记序列 为完整的参照序列,记序列为缺失序列,其中;
步骤B:初始化序列。调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列,记为。序列称为序列的始点零化像,记为;
步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出序列的面积,临时参照序列的面积,缺失序列的面积;计算序列1与序列i之间的灰色关联度,记为序列1与序列i之间的相似程度, 计算所有参照序列之间以及与缺失序列之间的相似程度,将所有的参照序列组合成上三角矩阵;
根据临界值r对所有的进行聚类分析,将所有的序列按照聚类划分;
进行灰色关联分析,确定与缺失序列相似程度较高的不完整序列集合并恢复为完整的序列,做均值化处理,得出唯一的均值完整参照序列,记录完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value;
步骤D:计算缺失数据;
根据EM算法利用缺失数据的序列计算出要被估计的参数;取最大值max_value和最小值min_value之间为缺失数据,将最小值min_value增补到缺失数据的序列中形成临时的完整序列,计算完整数据的对数似然函数的期望值;
极大化对数似然函数以确定参数的值,经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。
将缺失数据初步估计值逐一代入缺失数据的序列中,与均值完整参照序列进行关联度分析得到,取的极大值对应的数据作为最终的增补数据。
本发明方法的有益效果是,可以在具有历史数据的条件下,缩短了估算周期,提高了估算的精度,提高了缺失数据的估算效率。
本发明结合了期望最大化算法和灰色聚类分析的优点,提供一种结合了期望最大化方法和聚类分析方法的数据增补技术,在反复估算的基础上又保证数据的关联性,完整地将数据增补到缺失序列中,使得缺失数据的计算效率增加,收敛的周期缩短,并且使其估算精度提高。
附图说明
图1是基于期望最大化和聚类分析的数据增补技术的流程图。
具体实施方式
本发明具体实施例如下:
其中方案流程图如附图1所示。该技术方案包括如下步骤:
步骤A:确定参照序列、缺失序列。记序列为完整的参照序列,记序列为缺失序列,其中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏瑞中数据股份有限公司,未经国家电网公司;江苏瑞中数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110286150.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子装置及其显示方法
- 下一篇:一种气门座圈检具及检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置