[发明专利]噪声标签纠正方法有效

申请号：	201910562002.2	申请日：	2019-06-26
公开（公告）号：	CN110363228B	公开（公告）日：	2022-09-06
发明（设计）人：	徐建;余孟池;张静	申请（专利权）人：	南京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京理工大学专利中心 32203	代理人：	朱宝庆
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	噪声标签纠正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种噪声标签纠正方法，其特征在于，包括以下步骤：

步骤1，使用基分类器对样本进行预测得到样本预测概率，分别取正例集合和负例集合所有样本的预测概率期望值作为下界阈值和上界阈值，使用下界阈值和上界阈值判断观测样本真实标签，识别出噪声标签数据；具体步骤包括：

步骤1.1，基分类器对样本预测得到样本预测概率g(x)＝P(s＝1|x)；设噪声率ρ₁＝P(s＝0|y＝1)表示真实标签为1的样本误标记为0的概率，

表示观测标签为1且真实标签为1的样本的数量，

表示观测标签为0且真实标签为1的样本的数量，

表示观测标签为1且真实标签为0的样本的数量，

表示观测标签为0且真实标签为0的样本的数量；

步骤1.2，使用基分类器的分类结果判断样本的真实标签：使用下界阈值LB_y＝1判断样本真实标签是否为1，当观测样本在基分类器g(x)上的预测结果大于该下界阈值时，设该观测样本的真实标签为1；当观测样本在基分类器上的预测结果小于上界阈值UB_y＝0时，设该观测样本的真实标签为0；

步骤1.3，计算

其中，为观测正例样本集，为观测负例样本集，上届、下届阈值分别设定为正负例样本在基分类器上分类概率g(x)的期望值：

步骤1.4，计算噪声率的估计值和

步骤1.5，由贝叶斯定理，根据噪声率的估计值推导出反转噪声率的值

步骤1.6，设表示观测正例样本集中真实标签为0的样本数，表示观测负例样本集中真实标签为1的样本数，根据每个样本基分类器g(x)的预测值，将样本升序排序；在观测正例样本集中，前个样本视为正例样本集中的噪声标签样本；在观测负例样本集中，排在后个样本视为负例样本集中的噪声标签样本；

步骤2，利用基分类器对噪声标签样本进行重新标注，得到噪声标签样本被修正后的干净样本数据集；其中

步骤2中对于二元分类结果，识别出噪声标签样本后，根据每个样本在基分类器的预测概率值，将样本升序排序，在观测正例样本集中，将前面a个样本的标签重标注为0；在观测负例样本集中，将后个样本标签重标注为1；

步骤2中对于多类分类结果，根据基分类器对所有样本数据预测得到的分类结果矩阵，利用概率矩阵将样本的标签重标注为除当前标签外预测概率最大时所属的标签。

2.根据权利要求1所述的方法，其特征在于，步骤2中对于二元分类情况得到噪声标签样本被修正后的干净样本数据集的具体过程为：

识别出噪声标签样本后，根据每个样本在基分类器g(x)＝P(s＝1|x)的预测概率值，将样本升序排序；在观测正例样本集中，将前面个样本的标签重标注为0；在观测负例样本集中，将后个样本标签重标注为1；

重新标注后的正例样本集和负例样本集分别表示为：

其中，表示观测正例样本集中g(x)值第小的g(x)值，表示观测负例样本集g(x)值第大的g(x)值。

3.根据权利要求1所述的方法，其特征在于，步骤2中对于多类分类情况，采用对噪声样本的标签重标记得到噪声标签样本被修正后的干净样本数据集，具体过程为：

基分类器对所有样本数据预测时需要记录样本属于每个类别的概率，得到分类结果矩阵psx＝{p_ij|i∈N,j∈K}，psx是一个N×K的概率矩阵，其中N为样本数，K为标签种类数，其中，概率值表示基分类对所有样本数的分类结果矩阵，矩阵第i行p_i＝(p_i1,p_i2,,,p_ik)表示样本x_i在基分类器f(x)下属于各类标签的概率，值p_ij表示样本x_i属于k_j类的概率；

当样本x被判定为噪声标签后，利用该概率矩阵psx将x的标签重标注为除当前标签外预测概率最大时所属的标签：

y_i^relabel＝k_max(k_max＝argmaxpsx_i)

其中，k_max为样本x_i在基分类器分类概率中除该样本原有噪声标签s_i外概率最大值所属的标签类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910562002.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于流形学习的LED分类方法
下一篇：一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]噪声标签纠正方法有效

专利文献下载