[发明专利]一种厌氧数学建模过程缺失数据的预处理方法在审
申请号: | 201410570879.3 | 申请日: | 2014-10-23 |
公开(公告)号: | CN104318101A | 公开(公告)日: | 2015-01-28 |
发明(设计)人: | 李兵;程言君;郑晓伟;肖佳旭;廖晓霞;吴镇佳 | 申请(专利权)人: | 轻工业环境保护研究所 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数学 建模 过程 缺失 数据 预处理 方法 | ||
技术领域
本发明涉及厌氧消化领域数学建模预测沼气产气速率和产气量,实现厌氧消化过程关键参数的软件传感,具体涉及一种厌氧数学建模过程缺失数据的预处理方法。
背景技术
在厌氧沼气工程运行过程中,由于通讯中断、信号干扰、传感器故障或者人为误操作会造成一些监测数据的缺失。管理者和技术支持者希望通过对缺失数据的计算与分析,能够准确地评估系统运行效率,通过数学建模预测产气过程和关键指标的软件传感。如,在进行产气异常智能分析建模时,时间、进水量、产气量等指标的数据质量直接影响到模型的结果精度与评价标准,因此,对数据进行预处理就显得非常重要。
缺失值是造成脏数据的主要因素之一,是对以数据挖掘为主要手段的数学处理方法应用的巨大威胁。数据缺失造成的影响主要有:系统丢失了大量的有用信息;系统中表现出的不确定性更加显著,系统中蕴含的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。因此,没有高质量的数据,就没有高质量的挖掘结果,也就没有高质量的决策。对缺失值进行插补是处理缺失数据、提高数据质量的方法之一。可能值插补缺失值的思想来源于以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想和方法。对缺失数据的预处理,通常是采用基于加权平均值的方法进行数据补齐,即用某段时间内的数据加权平均得到缺损值,对于很多情况,补值效果并不理想,因而这种方法具有很大的局限性。
基于以上所述,针对规模化沼气运行过程中的一些产气量无法正常采集,如果丢失这部分数据,将影响产气量的计算结果,最终导致产气率数据误差很大。为了达了较好的建模和分析效果,需要对厌氧消化过程指标数据进行预处理,即需通过合适算法对缺失数据进行补齐,之后再算出厌氧消化过程的产气率。
本发明针对用户在厌氧消化建模过程的缺失数据进行分析,而挖掘目标是实现不完整数据到完整数据,有效地完备了数据,从而使模型构建得更精确,预测效果更好。
发明内容
数据分组处理算法是一种自组织的数据挖掘算法,用到了自组织数据挖掘主要原理。本发明通过数据分组处理算法对缺失值前后5个共10个数据为一组的进水量和产气量数据进行插补,从而实现对酒精废水产气量缺失数据的预处理。
方法包括以下步骤:首先将导入的原始数据分组,再确定因变量和自变量,剔除组里的 缺失值并将剩下数据依次排序,然后基于拉格朗日插值算法确定插值模型,再将缺失数据依次进行插补。然后往下一组同理处理,直到所有组数据处理完。
所述的厌氧消化建模过程缺失数据的预处理方法,其特征在于,所述的基于拉格朗日算法对缺失值逼近插值,在结点上给出结点基函数,然后做基函数的线性组合,组合系数为结点函数值,构造多项式逼近原函数,从而插值逼近缺失值,直到完备所有数据。且拉格朗日算法容易实现和操作,结果插值逼近地较精准。
基于拉格朗日算法,本技术用JAVA代码实现数据缺失值插补的全自动化处理,并将它完备为一个数据处理平台。(算法伪代码见附件1)
所述的预处理方法步骤:
(1)导入两组相关属性数据并确定自变量和因变量:
Xn={x0,x1,……,xi,……,xn}
Yn={y0,y1,……,yi,……,yn}
然后提取缺失值{xi,yi}前后5个数据组为一组:
Xn-1={xi-5,xi-4,xi-3,xi-2,xi-1,xi,xi+1,xi+2,xi+3,xi+4,xi+5}
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于轻工业环境保护研究所,未经轻工业环境保护研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410570879.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用