[发明专利]用于噪声标签的监督学习方法、数据分类处理方法以及装置在审
| 申请号: | 201910762908.9 | 申请日: | 2019-08-16 |
| 公开(公告)号: | CN110543898A | 公开(公告)日: | 2019-12-06 |
| 发明(设计)人: | 董雅洁 | 申请(专利权)人: | 上海数禾信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 11541 北京卓唐知识产权代理有限公司 | 代理人: | 唐海力<国际申请>=<国际公布>=<进入 |
| 地址: | 200120 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 损失函数 分类模型 标签 噪声 申请 标签标注 数据分类 包容度 标注 替换 样本 监督 学习 | ||
本申请公开了一种用于噪声标签的监督学习方法、数据分类处理方法以及装置。该方法包括确定用于分类模型的第一损失函数,并根据所述损失函数构造第二损失函数;将所述第二损失函数替换所述第一损失函数,并根据所述第二损失函数,训练所述分类模型。本申请解决了样本标签标注不准确存在噪声标签的技术问题。通过本申请提升了对于标签质量的包容度,降低了标注的成本。
技术领域
本申请涉及机器学习领域,具体而言,涉及一种用于噪声标签的监督学习方法以及装置、数据分类处理方法以及装置。
背景技术
分类问题,是机器学习中广为研究和应用的一个重要领域。作为监督学习,需要基于具有类别标签的数据进行有效地学习,从而获得能够对未标注样本准确预测的模型。因此,样本标签的准确度显得至关重要。
发明人发现,样本标签如果都采用专家人工标注,则效率低下且成本高。然而如果使用标注任务众包的方式质量也难以保证。
针对相关技术中样本标签标注不准确存在噪声标签的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于噪声标签的监督学习方法、数据分类处理方法以及装置,以解决样本标签标注不准确存在噪声标签的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种用于噪声标签的监督学习方法。
根据本申请的用于噪声标签的监督学习方法包括:确定用于分类模型的第一损失函数,并根据所述损失函数构造第二损失函数;其中所述第一损失函数是指,预设的对称损失函数;其中所述第二损失函数是指,根据真实正例标签被标记为负例的第一概率和真实负例标签被标记为正例的第二概率构造出的代理损失函数;将所述第二损失函数替换所述第一损失函数,并根据所述第二损失函数,训练所述分类模型。
进一步地,根据所述第二损失函数,训练所述分类模型之后,还包括:选用公开数据集对于分类模型的效果进行评估的步骤,
所述选用公开数据集对于分类模型的效果进行评估的步骤包括:
将公开数据集中的正例反转为负例、负例反转为正例构成出具有噪声标签的第二公开数据集;
在分类模型参数相同时,评价在原始模型、公开数据集、第二公开数据集、修改模型的不同组合情况下的相同训练轮数的训练效果。
进一步地,确定用于分类模型的第一损失函数,并根据所述损失函数构造第二损失函数包括:
确定用于二分类模型的对称损失函数,并根据所述对称损失函数构造代理损失函数。
进一步地,将所述第二损失函数替换所述第一损失函数,并根据所述第二损失函数,训练所述分类模型包括:
将代理损失函数替换对称损失函数,并根据所述代理损失函数,训练新的分类模型。
为了实现上述目的,根据本申请的另一方面,提供了一种数据分类处理方法,包括:确定用于分类模型的第一损失函数,并根据所述损失函数构造第二损失函数;其中所述第一损失函数是指,预设的对称损失函数;其中所述第二损失函数是指,根据真实正例标签被标记为负例的第一概率和真实负例标签被标记为正例的第二概率构造出的代理损失函数;将所述第二损失函数替换所述第一损失函数,并根据所述第二损失函数,训练所述分类模型后得到新的分类模型;将待处理数据出入所述新的分类模型,进行数据二分类处理。
为了实现上述目的,根据本申请的又一方面,提供了一种用于噪声标签的监督学习装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数禾信息科技有限公司,未经上海数禾信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910762908.9/2.html,转载请声明来源钻瓜专利网。





