[发明专利]噪声标签纠正方法有效
申请号: | 201910562002.2 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110363228B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 徐建;余孟池;张静 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱宝庆 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 噪声 标签 纠正 方法 | ||
1.一种噪声标签纠正方法,其特征在于,包括以下步骤:
步骤1,使用基分类器对样本进行预测得到样本预测概率,分别取正例集合和负例集合所有样本的预测概率期望值作为下界阈值和上界阈值,使用下界阈值和上界阈值判断观测样本真实标签,识别出噪声标签数据;具体步骤包括:
步骤1.1,基分类器对样本预测得到样本预测概率g(x)=P(s=1|x);设噪声率ρ1=P(s=0|y=1)表示真实标签为1的样本误标记为0的概率,
表示观测标签为1且真实标签为1的样本的数量,
表示观测标签为0且真实标签为1的样本的数量,
表示观测标签为1且真实标签为0的样本的数量,
表示观测标签为0且真实标签为0的样本的数量;
步骤1.2,使用基分类器的分类结果判断样本的真实标签:使用下界阈值LBy=1判断样本真实标签是否为1,当观测样本在基分类器g(x)上的预测结果大于该下界阈值时,设该观测样本的真实标签为1;当观测样本在基分类器上的预测结果小于上界阈值UBy=0时,设该观测样本的真实标签为0;
步骤1.3,计算
其中,为观测正例样本集,为观测负例样本集,上届、下届阈值分别设定为正负例样本在基分类器上分类概率g(x)的期望值:
步骤1.4,计算噪声率的估计值和
步骤1.5,由贝叶斯定理,根据噪声率的估计值推导出反转噪声率的值
步骤1.6,设表示观测正例样本集中真实标签为0的样本数,表示观测负例样本集中真实标签为1的样本数,根据每个样本基分类器g(x)的预测值,将样本升序排序;在观测正例样本集中,前个样本视为正例样本集中的噪声标签样本;在观测负例样本集中,排在后个样本视为负例样本集中的噪声标签样本;
步骤2,利用基分类器对噪声标签样本进行重新标注,得到噪声标签样本被修正后的干净样本数据集;其中
步骤2中对于二元分类结果,识别出噪声标签样本后,根据每个样本在基分类器的预测概率值,将样本升序排序,在观测正例样本集中,将前面a个样本的标签重标注为0;在观测负例样本集中,将后个样本标签重标注为1;
步骤2中对于多类分类结果,根据基分类器对所有样本数据预测得到的分类结果矩阵,利用概率矩阵将样本的标签重标注为除当前标签外预测概率最大时所属的标签。
2.根据权利要求1所述的方法,其特征在于,步骤2中对于二元分类情况得到噪声标签样本被修正后的干净样本数据集的具体过程为:
识别出噪声标签样本后,根据每个样本在基分类器g(x)=P(s=1|x)的预测概率值,将样本升序排序;在观测正例样本集中,将前面个样本的标签重标注为0;在观测负例样本集中,将后个样本标签重标注为1;
重新标注后的正例样本集和负例样本集分别表示为:
其中,表示观测正例样本集中g(x)值第小的g(x)值,表示观测负例样本集g(x)值第大的g(x)值。
3.根据权利要求1所述的方法,其特征在于,步骤2中对于多类分类情况,采用对噪声样本的标签重标记得到噪声标签样本被修正后的干净样本数据集,具体过程为:
基分类器对所有样本数据预测时需要记录样本属于每个类别的概率,得到分类结果矩阵psx={pij|i∈N,j∈K},psx是一个N×K的概率矩阵,其中N为样本数,K为标签种类数,其中,概率值表示基分类对所有样本数的分类结果矩阵,矩阵第i行pi=(pi1,pi2,,,pik)表示样本xi在基分类器f(x)下属于各类标签的概率,值pij表示样本xi属于kj类的概率;
当样本x被判定为噪声标签后,利用该概率矩阵psx将x的标签重标注为除当前标签外预测概率最大时所属的标签:
yirelabel=kmax(kmax=argmaxpsxi)
其中,kmax为样本xi在基分类器分类概率中除该样本原有噪声标签si外概率最大值所属的标签类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910562002.2/1.html,转载请声明来源钻瓜专利网。