[发明专利]训练样本的数据清洗方法、装置及一种分类器有效
| 申请号: | 202110456762.2 | 申请日: | 2021-04-27 |
| 公开(公告)号: | CN112990130B | 公开(公告)日: | 2021-07-23 |
| 发明(设计)人: | 杨帆;刘利卉;朱莹;冯帅;胡建国 | 申请(专利权)人: | 南京甄视智能科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 杨楠 |
| 地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练 样本 数据 清洗 方法 装置 一种 分类 | ||
本发明公开了一种训练样本的数据清洗方法。针对训练数据中少量存在的标注类标和真实类标不一致的情况,本发明先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性,抑制标注类标与真实类标不一致性数据特征差异性,其次根据训练过程中的验证集结果,结合前面显著性特征相关分析结果,对训练样本中的部分数据进行类标的修正。本发明还公开了一种训练样本的数据清洗装置以及一种分类器。本发明技术方案既可以单独作为数据预处理方法,对训练样本进行数据清洗;也可以与分类器训练过程相结合,在分类器训练中自适应修正错误标注的训练样本,从而显著提升分类算法的精度。
技术领域
本发明属于机器学习技术领域,具体涉及一种训练样本的数据清洗方法、装置及一种分类器。
背景技术
机器学习通常可分为监督学习、无监督学习、强化学习、半监督学习,而其中除无监督学习之外的其它几种方式都需要预先标注好样本所属类型标签(下文简称标注类标)的训练样本来进行学习。训练各种神经网络一般需要海量数据,海量数据中往往存在少量数据存在噪声,这部分噪声可能是数据与多个类别相近,或者存在干扰信息,叠加标注人员在标注时受主观性和工作强度影响,会存在少量数据的标注类标与真实类标不一致的情况。普通的分类算法训练时在面对这标注类标与真实类标不一致的数据时,是不进行处理的,从而导致训练出来的模型在预测时存在两种类别或者多种类别间置信值接近从而导致误分。理想情况是对标注人员进行统一培训,对二义性的图像重新标注,对不清楚的图像进行忽略或者剔除。但是这些处理都是增加额外的人力成本。
针对这一问题,研究人员也提出了一些对数据标注进行修正的技术方案,但普遍存在明显缺陷。例如,一篇中国发明专利申请《数据标注修正方法、装置、计算机可读介质及电子设备》(申请公开号为CN 110399933 A,公开日为2019.11.01)公开了一种数据标注的修正方法,对于一训练集,采用不同表达能力的学习模型同时计算该训练集内每一样本数据的分类分数,并且选出在每一所述学习模型下的分类分数均在该学习模型对应的阈值范围内的样本数据作为需要修正的样本数据,从而实现自动对样本数据进行核查;根据多数投票原则,对采用所述不同表达能力的学习模型计算得到的分类标注占比最高的作为该样本数据的标注,从而实现了自动且较准确地对样本数据的标注进行修正。该技术方案无需对训练集中所有样本数据都进行标注修正,能够自动对样本数据进行核查,寻找出最容易出现标注出错问题的样本数据集,自动且较准确地对该样本数据集内的标注进行修正。然而,该技术方案需要使用多种不同表达能力的学习模型,实现过程复杂,实现成本高昂,且对于错误标注数据的识别效果也不尽人意。又如,中国发明专利申请《一种基于半监督学习进行图像标注方法》(公开号为CN111738343A,公开日为2020.10.02)针对不同类别的样本设计不同的分类器,利用已经标注好的部分样本来训练分类器,并且对不同分类器的结果进行投票,选择出准确率最高的类别,从而对未知样本进行标注。然而该方案为了降低错误分类带来的影响,将分类器得到的每一个类别中的样本与标注的相应类别中的样本进行随机线性混合操作,使得错误分类的结果中也含有对应类别的特征。再如,论文《ImageCaptioning with Very Scarce Supervised Data: Adversarial Semi-SupervisedLearning Approach,MixMatch: A Holistic Approach to Semi-Supervised Learning》利用半监督学习实现通过较少的带有标签数据训出鲁棒性较强的模型并给大规模无标注的数据进行类标标注,但是在通过较少的带标签的数据训练模型的过程中并没有提出降低因为错误类标数据影响模型精度的问题。
发明内容
本发明索要解决的技术问题在于克服现有技术不足,提供一种训练样本的数据清洗方法,可以较低的成本对错误标注训练样本进行高效且准确地修正。
本发明具体采用以下技术方案解决上述技术问题:
一种训练样本的数据清洗方法,包括以下步骤:
步骤1、将带有标注类标的训练样本送入包括网络主体和全连接层的神经网络进行前向传播;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京甄视智能科技有限公司,未经南京甄视智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110456762.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





