[发明专利]一种基于模式识别的大数据清洗方法在审

专利信息
申请号: 202010400313.1 申请日: 2020-05-13
公开(公告)号: CN111581201A 公开(公告)日: 2020-08-25
发明(设计)人: 洪蒙纳;满奕;胡雨沙;李继庚 申请(专利权)人: 广州博依特智能信息科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06N3/04;G06N3/08
代理公司: 成都方圆聿联专利代理事务所(普通合伙) 51241 代理人: 苟铭
地址: 510000 广东省广州市黄*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模式识别 数据 清洗 方法
【说明书】:

发明公开了一种基于模式识别的大数据清洗方法,包括以下步骤:S1、根据工厂的实际情况,采集工厂所有需要清洗的数据;S2、对S1中采集的数据进行空缺值判别;S3、建立BPNN模型,输入S2中识别出存在空缺值的数据集的训练集,进行模型训练,利用训练好的BPNN模型对该数据集存在空缺值的地方进行数据填补;S4、建立模式识别模型,并输入对应模型的训练集进行模型训练;S5、利用S4中训练好的模式识别模型对采集的数据序列进行模式识别,然后根据模式类型进行对应的数据清洗;S6、将S5中清洗好的数据保存到相应存储器中;解决了传统的直接清洗或者不进行数据清洗所得到的数据质量低问题。

技术领域

本发明涉及工业大数据的数据清洗技术,特别涉及一种基于模式识别的大数据清洗方法。

背景技术

工业大数据更注重面向应用要求具有尽可能全面的使用样本,以覆盖工业过程中的各类变化条件,保证从数据中能够提取出反映对象真实状态的全面性信息。然而,从大数据环境的产生端来看,感知源的多样性与相对异步性或无序性,导致能够获得的工业数据尽管量大,但在分析过程中,针对数据特征或变化要素却仍然呈现出遗漏、分散、断续等特点,这也是为什么大量数据分析师90%以上的工作时间都会被贡献给不良数据的清洗。

另一方面,数据的“量”并无法保障数据的“质”,这就可能导致数据的低可用率,因为低质量的数据可能直接影响到分析过程而导致结果无法利用。工业大数据对预测和分析结果的容错率很低。工业大数据在进行预测和决策时,不仅仅考虑两个属性之间的关联是否具有统计显著性,还包括在样本量足够大时,噪声和个体之间的差异,因此对工业大数据进行数据清洗是十分必要的。

发明内容

为解决现有技术中存在的问题,本发明提供了一种基于模式识别的大数据清洗方法,解决了传统的直接清洗或者不进行数据清洗所得到的数据质量低问题。

本发明采用的技术方案是,一种基于模式识别的大数据清洗方法,包括以下步骤:

S1、根据工厂的实际情况,采集工厂所有需要清洗的数据;

S2、对S1中采集的数据进行空缺值判别;

S3、建立BPNN模型,并输入S2中识别出存在空缺值数据集的训练集,进行模型训练,利用训练好的BPNN模型对该数据集存在空缺值的地方进行数据填补;

S4、建立模式识别模型,并输入对应模型的训练集进行模型训练;

S5、利用S4中训练好的模式识别模型对采集的数据序列进行模式识别,根据模式类型进行对应的数据清洗;

S6、将S5中清洗好的数据保存到相应存储器中。

进一步,S3中BPNN模型的建立,包括以下步骤:

S31、初始化BPNN参数,包括:输入层神经元数、隐藏层神经元数、输出层神经元数;

S32、输入训练数据集;

S33、利用MATLAB搭建神经网络,神经网络中的隐藏层的权重和反馈偏差的更新公式为:

其中,oik表示第i个训练样本在隐藏层第k个节点的输出值,wkj表示隐藏层第k个节点到输出层第j个分量之间的连接权值,w′kj为更新的连接权值,b′j为更新的偏置值,f′为sigmoid函数的偏导,α1和α2为学习率;

S34、神经网络的目标函数的计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州博依特智能信息科技有限公司,未经广州博依特智能信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010400313.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top