[发明专利]一种基于模式识别的大数据清洗方法在审
| 申请号: | 202010400313.1 | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN111581201A | 公开(公告)日: | 2020-08-25 |
| 发明(设计)人: | 洪蒙纳;满奕;胡雨沙;李继庚 | 申请(专利权)人: | 广州博依特智能信息科技有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06N3/04;G06N3/08 |
| 代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 苟铭 |
| 地址: | 510000 广东省广州市黄*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模式识别 数据 清洗 方法 | ||
本发明公开了一种基于模式识别的大数据清洗方法,包括以下步骤:S1、根据工厂的实际情况,采集工厂所有需要清洗的数据;S2、对S1中采集的数据进行空缺值判别;S3、建立BPNN模型,输入S2中识别出存在空缺值的数据集的训练集,进行模型训练,利用训练好的BPNN模型对该数据集存在空缺值的地方进行数据填补;S4、建立模式识别模型,并输入对应模型的训练集进行模型训练;S5、利用S4中训练好的模式识别模型对采集的数据序列进行模式识别,然后根据模式类型进行对应的数据清洗;S6、将S5中清洗好的数据保存到相应存储器中;解决了传统的直接清洗或者不进行数据清洗所得到的数据质量低问题。
技术领域
本发明涉及工业大数据的数据清洗技术,特别涉及一种基于模式识别的大数据清洗方法。
背景技术
工业大数据更注重面向应用要求具有尽可能全面的使用样本,以覆盖工业过程中的各类变化条件,保证从数据中能够提取出反映对象真实状态的全面性信息。然而,从大数据环境的产生端来看,感知源的多样性与相对异步性或无序性,导致能够获得的工业数据尽管量大,但在分析过程中,针对数据特征或变化要素却仍然呈现出遗漏、分散、断续等特点,这也是为什么大量数据分析师90%以上的工作时间都会被贡献给不良数据的清洗。
另一方面,数据的“量”并无法保障数据的“质”,这就可能导致数据的低可用率,因为低质量的数据可能直接影响到分析过程而导致结果无法利用。工业大数据对预测和分析结果的容错率很低。工业大数据在进行预测和决策时,不仅仅考虑两个属性之间的关联是否具有统计显著性,还包括在样本量足够大时,噪声和个体之间的差异,因此对工业大数据进行数据清洗是十分必要的。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于模式识别的大数据清洗方法,解决了传统的直接清洗或者不进行数据清洗所得到的数据质量低问题。
本发明采用的技术方案是,一种基于模式识别的大数据清洗方法,包括以下步骤:
S1、根据工厂的实际情况,采集工厂所有需要清洗的数据;
S2、对S1中采集的数据进行空缺值判别;
S3、建立BPNN模型,并输入S2中识别出存在空缺值数据集的训练集,进行模型训练,利用训练好的BPNN模型对该数据集存在空缺值的地方进行数据填补;
S4、建立模式识别模型,并输入对应模型的训练集进行模型训练;
S5、利用S4中训练好的模式识别模型对采集的数据序列进行模式识别,根据模式类型进行对应的数据清洗;
S6、将S5中清洗好的数据保存到相应存储器中。
进一步,S3中BPNN模型的建立,包括以下步骤:
S31、初始化BPNN参数,包括:输入层神经元数、隐藏层神经元数、输出层神经元数;
S32、输入训练数据集;
S33、利用MATLAB搭建神经网络,神经网络中的隐藏层的权重和反馈偏差的更新公式为:
其中,oik表示第i个训练样本在隐藏层第k个节点的输出值,wkj表示隐藏层第k个节点到输出层第j个分量之间的连接权值,w′kj为更新的连接权值,b′j为更新的偏置值,f′为sigmoid函数的偏导,α1和α2为学习率;
S34、神经网络的目标函数的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州博依特智能信息科技有限公司,未经广州博依特智能信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010400313.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种连续玻纤增强热塑性复合材料及其制备方法
- 下一篇:电梯端站识别系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





