[发明专利]数据处理方法、装置、设备以及计算机可读存储介质在审
| 申请号: | 201811458330.X | 申请日: | 2018-11-30 |
| 公开(公告)号: | CN109635110A | 公开(公告)日: | 2019-04-16 |
| 发明(设计)人: | 曾启飞;陈思姣;罗雨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;丁君军 |
| 地址: | 100094 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标注 分类模型 验证集 计算机可读存储介质 错误标注 数据处理 验证 训练集 数据集中 数据集 分类 筛选 | ||
1.一种数据处理方法,包括:
将标注数据集划分为训练集和验证集,所述标注数据集中的内容已经被标注有分类;
使用所述训练集来训练用于对内容进行分类的分类模型;以及
基于所述验证集对所述分类模型的验证,识别所述验证集中的错误标注的标注数据。
2.根据权利要求1所述的方法,其中识别所述验证集中的错误标注的标注数据包括:
使用所述验证集来验证所述分类模型的准确性;以及
响应于所述标注数据满足预定条件,确定所述标注数据被疑似错误标注。
3.根据权利要求2所述的方法,其中确定所述标注数据被疑似错误标注包括:
获取在迭代的验证过程中所述标注数据未通过验证的次数或概率;以及
响应于所述次数或所述概率大于预定阈值,确定所述标注数据满足所述预定条件。
4.根据权利要求2所述的方法,其中识别所述验证集中的错误标注的标注数据还包括:
接收对所述标注数据的人工审核;
响应于所述人工审核指示所述标注数据被错误标注,修改所述标注数据的分类;以及
响应于所述人工审核指示所述标注数据被正确标注,保持所述标注数据不变。
5.根据权利要求4所述的方法,还包括:
将经过人工审核的所述标注数据标记为正确标注数据,所述正确标注数据在后续的验证过程中不会再被识别为疑似错误标注的标注数据。
6.根据权利要求1所述的方法,其中所述分类模型为第一分类模型,并且所述方法还包括:
响应于获得预定数量的新标注数据,更新所述标注数据集;以及使用更新后的所述标注数据集再次训练分类模型以生成第二分类模型。
7.根据权利要求6所述的方法,还包括:
确定所述第二分类模型的性能是否比所述第一分类模型的性能提升预定程度;以及
响应于确定所述第二分类模型的性能比所述第一分类模型的性能提升所述预定程度,发布所述第二分类模型以用于对内容进行分类。
8.一种数据处理装置,包括:
划分模块,被配置为将标注数据集划分为训练集和验证集,所述标注数据集中的内容已经被标注有分类;
训练模块,被配置为使用所述训练集来训练用于对内容进行分类的分类模型;以及
识别模块,被配置为基于所述验证集对所述分类模型的验证,识别所述验证集中的错误标注的标注数据。
9.根据权利要求8所述的装置,其中所述识别模块包括:
验证模块,被配置为使用所述验证集来验证所述分类模型的准确性;以及
确定模块,被配置为响应于所述标注数据满足预定条件,确定所述标注数据被疑似错误标注。
10.根据权利要求9所述的装置,其中所述确定模块包括:
获取模块,被配置为获取在迭代的验证过程中所述标注数据未通过验证的次数或概率;以及
第二确定模块,被配置为响应于所述次数或所述概率大于预定阈值,确定所述标注数据满足所述预定条件。
11.根据权利要求9所述的装置,其中所述识别模块还包括:
接收模块,被配置为接收对所述标注数据的人工审核;
修改模块,被配置为响应于所述人工审核指示所述标注数据被错误标注,修改所述标注数据的分类;以及
保持模块,被配置为响应于所述人工审核指示所述标注数据被正确标注,保持所述标注数据不变。
12.根据权利要求11所述的装置,还包括:
标记模块,被配置为将经过人工审核的所述标注数据标记为正确标注数据,所述正确标注数据在后续的验证过程中不会再被识别为疑似错误标注的标注数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811458330.X/1.html,转载请声明来源钻瓜专利网。





