[发明专利]一种高维数据半监督分类方法有效
申请号: | 202110285595.X | 申请日: | 2021-03-17 |
公开(公告)号: | CN113033641B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 叶枫旭;余志文;陈俊龙 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 监督 分类 方法 | ||
本发明公开了一种高维数据半监督分类方法,涉及人工智能半监督学习领域。主要克服制造业高维数据中数据噪声和冗余特征对模型的影响,并将子空间学习,图的构建,分类器训练整合为一个统一框架,达到更好的分类效果。其方法步骤为:1)输入训练数据集;2)数据归一化;3)参数、变量初始化;4)子空间学习;5)图的构建;6)分类器训练;7)循环重复步骤4)‑6),直至算法收敛;8)对测试样本进行分类;9)得到分类准确率。本发明从标签空间和子空间这两个低维空间来完成图的构建,有效缓解了噪声数据和冗余特征对算法模型的干扰,保证了图的质量,提升了分类效果。
技术领域
本发明涉及人工智能半监督学习的技术领域,尤其是指一种高维数据半监督分类方法。
背景技术
随着智能时代的到来,部分传统制造业也逐渐向智能制造靠拢。针对制造业所产生的大量数据,运用智能决策方法来优化生产,销售,服务等流程,是智能制造需要面对的主要问题之一。制造业在发展的过程中往往积累了大量的数据。然而,在普遍情况下,这些大数据并不是都带有标签的。面对大量数据,少量标签的情况,若我们想用全监督分类算法,对数据进行建模分析,来学习到这些数据的某些模式,往往不能取得令人满意的效果。那么,该如何从大量的数据和少量的标签中,学习到数据的固有模式呢?其中一个解决方法便是,尝试给海量的训练数据打上标签,但这代价不菲,需要消耗大量的人力物力。显然,更好的解决方案则是直接从算法和模型入手,设计一种算法模型,使它能够从仅带有少量标签的数据中,学习到一个性能较好,泛化能力强的分类模型。而半监督分类算法,正是这样的算法模型。它利用少量的带标签样本和大量的无标签样本,对数据进行学习分类,从而节省了给训练样本人工打上标签的开销。因此,半监督分类算法具有重要的研究意义,在近几年吸引了广大科研人员的研究和探索,在工业上也具有良好的应用前景。
基于图的半监督分类算法是近几年来半监督领域较为热门的研究方向之一,因其往往具有更为优秀的表现。此类算法基于数据应处于流形空间的假设,样本的分布应足够平滑。所谓的平滑,指的是,越接近的样本,即相似度越高的样本,其标签应尽可能的相同。在这类算法中,通常要构建一个图来表示样本之间的相似度,进而得到样本之间的平滑度项,然后将损失函数,正则项和平滑度项结合在一起作为模型的整体目标函数,通过优化该目标函数来求解分类器参数,使得最终训练得到的分类器不仅在带标签样本上的具有较小的分类损失,在所有样本(包括带标签样本和无标签样本)上的分类结果也足够平滑。
然而,目前的一些基于图的半监督分类算法还无法很好地适用于制造业中高维数据的场景。比如,制造业中的数据往往带有缺失值和数据噪声,会对图的构建带来干扰,对模型的性能产生一定的影响。另一个问题则是,当处理制造业的高维数据时,受数据噪声和冗余特征的影响,基于图的半监督分类算法往往不能有很好的表现。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种高维数据半监督分类方法,可有效缓解高维数据中的数据噪声和冗余特征对于模型的影响,并将图的构建过程和分类器训练过程整合到一个统一框架中,显著提升半监督分类场景下的分类效果。
为实现上述目的,本发明所提供的技术方案为:一种高维数据半监督分类方法,包括以下步骤:
1)输入训练数据集,为高维数据集;
2)对数据归一化,消除不同特征量纲不同的影响,同时提升后续优化学习的速度;
3)初始化回归矩阵子空间投影矩阵其中d为样本的特征数,c为样本类别数,表示d行c列的实数矩阵;初始化W的低秩分解矩阵其中表示c行c列的实数矩阵;初始化相似度矩阵参数矩阵其中n为样本数量,表示n行n列的实数矩阵;初始化偏置向量其中表示c行1列的实数矩阵;
4)子空间学习:根据提出的子空间学习目标函数,推导低秩分解矩阵B,参数矩阵C和子空间投影矩阵A的最优解;由于提出的目标函数涉及多个优化变量,所以用交替优化的方法,迭代更新B、C、A,逐步优化,提升子空间质量,进而学习到最优的表现样本本质特征的子空间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110285595.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置