[发明专利]样本数据处理方法、装置、存储介质与电子设备在审
申请号: | 202110184725.0 | 申请日: | 2021-02-10 |
公开(公告)号: | CN113780323A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 王阳阳;吴良庆 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/215 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据处理 方法 装置 存储 介质 电子设备 | ||
本公开提供一种样本数据处理方法、装置、存储介质与电子设备,涉及数据处理技术领域。其中,所述样本数据处理方法包括:利用第一样本数据集训练目标模型,得到所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率;从所述第一样本数据集中剔除错误率高于错误率阈值的样本数据,得到第二样本数据集;利用所述第二样本数据集训练目标模型,得到所述第二样本数据集的准确率;当所述第二样本数据集的准确率大于或等于所述第一样本数据集的准确率时,输出所述第二样本数据集。本公开在提升样本数据质量的同时,节省了人力资源成本。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种样本数据处理方法、样本数据处理装置、计算机可读存储介质与电子设备。
背景技术
随着深度学习算法的不断发展,深度学习算法被广泛应用于图像识别、自然语言处理等类型场景中。由于深度学习算法的学习效果与所学习的样本数据质量密切相关,因此提高样本数据质量非常重要。
目前,提高数据质量的方法主要是对深度学习模型输出结果错误的样本数据进行人工循环清洗,来提高样本数据质量。但是这样做不仅造成了大量的人力浪费,还没有停止数据清洗的指标。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种样本数据处理方法、样本数据处理装置、计算机可读存储介质与电子设备,进而至少在一定程度上解决相关技术中在提升样本数据质量的同时所需人力资源成本过高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种样本数据处理方法,包括:利用第一样本数据集训练目标模型,得到所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率;从所述第一样本数据集中剔除错误率高于错误率阈值的样本数据,得到第二样本数据集;利用所述第二样本数据集训练目标模型,得到所述第二样本数据集的准确率;当所述第二样本数据集的准确率大于或等于所述第一样本数据集的准确率时,输出所述第二样本数据集。
在本公开的一种示例性实施例中,所述利用第一样本数据集训练目标模型,得到所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率,包括:通过所述第一样本数据集对所述目标模型进行交叉训练,以获取所述第一样本数据集中各样本数据的预测数据;根据所述第一样本数据集中各样本数据的预测数据,获取所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率。
在本公开的一种示例性实施例中,所述通过所述第一样本数据集对所述目标模型进行交叉训练,以获取所述第一样本数据集中各样本数据的预测数据,包括:将所述第一样本数据集切分成n个样本数据子集,分别以每个所述样本数据子集作为测试集,其余的所述样本数据子集作为训练集,对所述目标模型进行n次交叉训练。
在本公开的一种示例性实施例中,所述通过所述第一样本数据集对所述目标模型进行交叉训练,以获取所述第一样本数据集中各样本数据的预测数据,还包括:迭代执行所述交叉训练,直到所述交叉训练的次数达到预设次数。
在本公开的一种示例性实施例中,所述方法还包括:当所述第二样本数据集的准确率小于所述第一样本数据集的准确率时,更新第二样本数据集。
在本公开的一种示例性实施例中,所述当所述第二样本数据集的准确率小于所述第一样本数据集的准确率时,更新第二样本数据集,包括:当所述第二样本数据集的准确率小于所述第一样本数据集的准确率时,更新所述错误率阈值,并跳转至从所述第一样本数据集中剔除错误率高于错误率阈值的样本数据的步骤,以更新所述第二样本数据集。
在本公开的一种示例性实施例中,所述更新所述错误率阈值,包括:将所述错误率阈值加上预设步长作为更新后的所述错误率阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110184725.0/2.html,转载请声明来源钻瓜专利网。