[发明专利]样本数据处理方法、装置、存储介质与电子设备在审
申请号: | 202110184725.0 | 申请日: | 2021-02-10 |
公开(公告)号: | CN113780323A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 王阳阳;吴良庆 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/215 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据处理 方法 装置 存储 介质 电子设备 | ||
1.一种样本数据处理方法,其特征在于,包括:
利用第一样本数据集训练目标模型,得到所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率;
从所述第一样本数据集中剔除错误率高于错误率阈值的样本数据,得到第二样本数据集;
利用所述第二样本数据集训练目标模型,得到所述第二样本数据集的准确率;
当所述第二样本数据集的准确率大于或等于所述第一样本数据集的准确率时,输出所述第二样本数据集。
2.根据权利要求1所述的方法,其特征在于,所述利用第一样本数据集训练目标模型,得到所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率,包括:
通过所述第一样本数据集对所述目标模型进行交叉训练,以获取所述第一样本数据集中各样本数据的预测数据;
根据所述第一样本数据集中各样本数据的预测数据,获取所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第一样本数据集对所述目标模型进行交叉训练,以获取所述第一样本数据集中各样本数据的预测数据,包括:
将所述第一样本数据集切分成n个样本数据子集,分别以每个所述样本数据子集作为测试集,其余的所述样本数据子集作为训练集,对所述目标模型进行n次交叉训练。
4.根据权利要求2所述的方法,其特征在于,所述通过所述第一样本数据集对所述目标模型进行交叉训练,以获取所述第一样本数据集中各样本数据的预测数据,还包括:
迭代执行所述交叉训练,直到所述交叉训练的次数达到预设次数。
5.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
当所述第二样本数据集的准确率小于所述第一样本数据集的准确率时,更新第二样本数据集。
6.根据权利要求5所述的方法,其特征在于,所述当所述第二样本数据集的准确率小于所述第一样本数据集的准确率时,更新第二样本数据集,包括:
当所述第二样本数据集的准确率小于所述第一样本数据集的准确率时,更新所述错误率阈值,并跳转至从所述第一样本数据集中剔除错误率高于错误率阈值的样本数据的步骤,以更新所述第二样本数据集。
7.根据权利要求6所述的方法,其特征在于,所述更新所述错误率阈值,包括:
将所述错误率阈值加上预设步长作为更新后的所述错误率阈值。
8.根据权利要求1所述的方法,其特征在于,所述第一样本数据集包括以下任意一种类型的数据:
图像数据、文本数据、音频数据。
9.一种样本数据处理装置,其特征在于,包括:
第一准确率获取模块,用于利用第一样本数据集训练目标模型,得到所述第一样本数据集中各样本数据的错误率与所述第一样本数据集的准确率;
样本数据剔除模块,用于从所述第一样本数据集中剔除错误率高于错误率阈值的样本数据,得到第二样本数据集;
第二准确率获取模块,用于利用所述第二样本数据集训练目标模型,得到所述第二样本数据集的准确率;
样本数据集输出模块,用于当所述第二样本数据集的准确率大于或等于所述第一样本数据集的准确率时,输出所述第二样本数据集。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110184725.0/1.html,转载请声明来源钻瓜专利网。