[发明专利]数据处理方法、装置、设备以及计算机可读存储介质在审
| 申请号: | 201811458330.X | 申请日: | 2018-11-30 |
| 公开(公告)号: | CN109635110A | 公开(公告)日: | 2019-04-16 |
| 发明(设计)人: | 曾启飞;陈思姣;罗雨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;丁君军 |
| 地址: | 100094 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标注 分类模型 验证集 计算机可读存储介质 错误标注 数据处理 验证 训练集 数据集中 数据集 分类 筛选 | ||
根据本公开的示例实施例,提供了一种数据处理方法、装置、设备以及计算机可读存储介质。方法包括将标注数据集划分为训练集和验证集,其中标注数据集中的内容已经被标注有分类。方法还包括使用训练集来训练用于对内容进行分类的分类模型。此外,方法还包括基于验证集对分类模型的验证来识别验证集中的错误标注的标注数据。本公开的实施例在使用验证集验证分类模型的过程中,能够筛选出错误标注的标注数据,由此提升标注数据的准确性,并且提高分类模型的性能。
技术领域
本公开的实施例总体上涉及计算机技术领域,并且更具体地涉及数据处理方法、装置、设备以及计算机可读存储介质。
背景技术
随着信息技术的发展,网络上的各种资源呈现指数级增长,在各种平台上每天发布大量的内容资源(例如文章、图片、视频等),这些内容可能是由用户人工产生,也可能由机器自动生成。针对这些待发布的内容,需要对其进行审核,以保证发布内容的质量。传统地,需要人工来逐一审核,例如,人工审核员审核每篇内容,并将符合规定的内容发布到平台,而对于不符合规定的内容,将被过滤掉,而不会被发布到平台上。
在存在大量新增内容的情况下,逐一人工审核将需要投入大量的人力资源,导致效率较低。近年来,陆续出现一些自动审核系统。自动审核系统是一种基于规则或者机器学习模型的自动化系统,其依赖于规则或标注数据。标注数据是已经经过人工和/或自动标注的数据,通常针对每项内容具有相应的标签。自动审核系统基于对已标注数据的训练,生成能够用于自动审核的审核模型。
发明内容
根据本公开的示例实施例,提供了一种数据处理方法、装置、设备以及计算机可读存储介质。
在本公开的第一方面中,提供了一种数据处理方法。该方法包括:将标注数据集划分为训练集和验证集,其中标注数据集中的内容已经被标注有分类;使用训练集来训练用于对内容进行分类的分类模型;以及基于验证集对分类模型的验证,识别验证集中的错误标注的标注数据。
在本公开的第二方面中,提供了一种数据处理装置。该装置包括:划分模块,被配置为将标注数据集划分为训练集和验证集,标注数据集中的内容已经被标注有分类;训练模块,被配置为使用训练集来训练用于对内容进行分类的分类模型;以及识别模块,被配置为基于验证集对分类模型的验证,识别验证集中的错误标注的标注数据。
在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的方法或过程。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的方法或过程。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的实施例的用于发布新内容的示例过程的示意图;
图2示出了根据本公开的实施例的用于识别错误标注的数据的示意图;
图3示出了根据本公开的实施例的数据处理方法的流程图;
图4示出了根据本公开的实施例的用于对疑似错误标注的标注数据进行二次审核的方法的流程图;
图5示出了根据本公开的实施例的用于发布新的分类模型的方法的流程图;
图6示出了根据本公开的实施例的数据处理装置的框图;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811458330.X/2.html,转载请声明来源钻瓜专利网。





