[发明专利]一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法有效

专利信息
申请号: 201710315861.2 申请日: 2017-05-02
公开(公告)号: CN107292330B 公开(公告)日: 2021-08-06
发明(设计)人: 关东海;魏红强;袁伟伟 申请(专利权)人: 南京航空航天大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 211100 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 双重 信息 迭代式 标签 噪声 识别 算法
【说明书】:

发明公开的一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法,属于机器学习和数据挖掘领域。本发明将监督和半监督学习结合起来,对于监督学习部分,通过软多重投票方式,产生监督学习噪声识别结果;对于半监督学习部分,基于监督学习产生的纯净数据训练的分类模型,对无标签数据集进行标记,标记后的无标签数据作为训练集,用加权KNN方法对标签数据集进行检测产生噪声识别结果;最终将噪声识别结果结合起来产生最终识别结果。本发明算法还采取迭代方式,每次迭代输入的待测样本为上次迭代时过滤掉噪声后的剩余样本。同传统噪声识别算法比,该发明结合了更多互补信息,同时辅以迭代方式,能更好促进噪声识别准确性。

技术领域

本发明涉及数据挖掘和机器学习技术领域,具体是基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法。

背景技术

机器学习在实际应用当中使用的很多训练数据都是带有噪声的,其中导致的原因包括人为的错误,硬件设备的错误,数据收集过程的错误等。传统的做法就是在应用那些机器学习算法前,通过人工对源数据进行数据预处理工作,获得纯净源数据,然而,这些人工的工作费力、繁琐、耗时,而且不能保证数据的完全正确性,这对后续的算法应用造成了不可忽视的影响。数据噪声通常包括两类:属性噪声和类别噪声,属性噪声指的是样本属性值不准确,类别噪声指的是样本的标签不准确[1]。相比于属性噪声,类别噪声的影响更大。

对类别噪声的处理方法包括:设计健壮的算法[2,3]以及噪声检测算法[4,5,6,7]。设计健壮的算法主要是改进已有算法,使已有算法受类别噪声的影响更小。而噪声检测算法是在使用包含噪声的数据之前检测并删除噪声。相比之下,类噪声检测算法的效果和通用性更强。

已有的类噪声检测算法主要包含两类:基于监督学习和基于半监督学习。其中基于监督学习的代表是基于集成学习的算法,这一类算法的代表是大多数过滤和一致性过滤[7]。在这些算法中,训练数据首先被随机的分成多个子集,然后每个子集会被单独的进行噪声检测。检测的基本思想是通过以剩余子集为训练样本获得的多个分类器的投票。这类算法主要包括两个步骤:样本划分和多分类器投票。因为样本划分和多分类器投票只执行一次,因此属于基于单次投票的标签噪声检测方法。已有的基于单次投票的标签噪声检测方法存在两个不足:单次投票的结果受样本划分的影响较大,并且遗漏噪声的可能性较大。虽然后来对于这些不足有了新的改进算法(多重投票的类噪声检测方法[8]),但还是会有一部分噪声被遗漏。基于半监督学习的算法[6],这一类算法的思想是通过已知的有标签的数据,训练出一个分类模型,对无标签数据进行标记,标记后的数据加到已有的有标签数据集中壮大训练集,从而可以从一个更大的训练集中训练出更好地分类模型来更好地检测标签噪声。

对于监督学习来说,它没有做到利用和发掘无标签数据中隐藏的信息,一楼噪声的可能性较大;而对于半监督学习来说,由于原始的有标签数据集存在噪声,对于无标签数据的标记,也会产生噪声,如果原始的有标签数据集噪声比较大,那最终会得到一个非常糟糕的分类模型。

参考文献:

[1]Zhu,Xingquan,and Xindong Wu.″Class noise vs.attribute noise:Aquantitative study.″Artificial Intelligence Review 22.3(2004):177-210.

[2]J.Bootkrajang,A.Kaban,Classification of mislabelled microarraysusing robust sparse logistic regression,Bioinformatics 29(7)(2013)870-877.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710315861.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top