[发明专利]基于伪标签方法和弱监督学习的过程数据故障分类方法有效
申请号: | 201911295545.9 | 申请日: | 2019-12-16 |
公开(公告)号: | CN111079836B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 葛志强;廖思奋 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 方法 监督 学习 过程 数据 故障 分类 | ||
本发明公开了一种基于伪标签方法和弱监督学习的工业过程数据故障分类方法,它由多层感知器,BatchNormalization层,Dropout层和Softmax输出层组成的有监督分类网络和用于获取伪标签不准确情况的高斯混合模型组成;多层感知器能够从有标签数据中学习数据的特征表示,BatchNormalization层用于加速多层感知器模型的收敛,Dropout层用于防止多层感知器训练过拟合,Softmax输出层根据多层感知器提取的故障样本特征进行故障分类。本发明可以在获得有标签样本标签不准确且存在无标签样本场景进行建模,通过对有标签样本标签及基于伪标签方法给无标签样本预测的伪标签进行标签概率转移矩阵评估,并用于修正分类网络的损失函数,完成弱监督学习,从而提升模型对样本的分类精度。
技术领域
本发明属于工业过程故障诊断和分类领域,涉及一种基于伪标签方法和弱监督学习的故障分类方法。
背景技术
在工业过程监测中,当检测到故障发生后,需要对故障信息进行进一步分析,而故障分类是其中的一个重要环节,获得发生故障类别,有利于进行工业过程的恢复。
在传统的故障分类中,都需要样本具有标签,从而进行模型训练,然而,工业过程数据中,存在有标签样本的标签可能不准确,且样本标签缺失的情况,即部分样本是无标签的。伪标签方法是一种同时利用有标签样本和无标签样本的一种有效方法。但是伪标签方法没有考虑给无标签样本打上标签(伪标签)的准确性,把含伪标签样本放入网络进行建模,可能给模型带来噪声。因此,在实际建模中考虑有标签样本标签以及无标签样本伪标签的不准确性,对这种样本标签不准确的弱监督信息进行弱监督学习建模,能有利提高模型对故障样本的分类精度。
发明内容
针对目前工业过程中获得的有标签样本的标签可能并不准确及伪标签方法给无标签样本打的伪标签可能错标等问题,本发明提出了一种基于伪标签方法和弱监督学习的故障分类方法,该方法基于MLP,BatchNormalization层,Dropout层和Softmax输出层组成的分类网络和高斯混合模型,实现了对工业过程中故障样本的精确分类。
本发明具体技术方案如下:
一种基于伪标签方法和弱监督学习的故障分类方法,包括如下步骤:
步骤一:收集历史工业过程的有标签数据集和无标签数据集作为训练数据集,其中有标签数据集为含有故障类别标签的有标签数据集无标签数据集其中,xr为有标签数据样本,yr为该样本的标签,yr∈{1,2,...,K},Nl表示有标签数据集的样本个数,Nu表示无标签数据集的样本个数,K为样本类别数。
步骤二:将步骤一中收集到的有标签数据集Dl标准化,即将有标签样本集Xl每个变量映射为均值为0,方差为1的样本集Xl_std,并通过one-hot编码将标签集Yl每个样本转化为一维向量,得到标准化有标签数据集无标签样本集Du也进行同样的标准化,得到标准化无标签数据集
步骤三:根据伪标签方法,将标准化有标签数据集Dl_std作为输入,对MLP网络进行第一次有监督训练,训练好的网络对标准化无标签样本集Du_std推理得到无标签样本的伪标签集Yul,与无标签样本集Xu构成含伪标签集的无标签数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911295545.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种苗木种植用灌溉设备
- 下一篇:一种蔬菜大棚用灌溉装置