[发明专利]分类模型的训练方法和装置、移动终端、可读存储介质在审

申请号：	201810588115.5	申请日：	2018-06-08
公开（公告）号：	CN108875821A	公开（公告）日：	2018-11-23
发明（设计）人：	刘耀勇	申请（专利权）人：	OPPO广东移动通信有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	方高明
地址：	523860 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类模型目标数据训练分类预设数据清洗方法和装置标注信息类别信息移动终端计算机可读存储介质可读存储介质人工审核人力成本数据清洗不一致保证携带节约申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种分类模型的训练方法和装置、移动终端、计算机可读存储介质。方法包括：基于预设数据集训练分类模型直到分类模型的精度达到标准值；其中，预设数据集中的数据均携带标注信息；基于训练后的分类模型对预设数据集内每个数据进行识别，以获取每个数据的类别信息；当数据的类别信息与标注信息不一致时，对数据进行清洗，以获取清洗后的目标数据集；基于清洗后的目标数据集再次训练分类模型，可以基于半自动的清洗方式来保证目标数据集中各个数据的质量，而不需要通过多级人工审核机制来保证数据质量，大大节约的人力成本，提高了数据清洗效率，同时基于该目标数据集训练分类模型，还可以提高分类模型的精度和性能。

技术领域

本申请涉及计算机应用领域，特别是涉及一种分类模型的训练方法和装置、移动终端、计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)领域的发展日新月异，特别是随着深度学习技术的广泛应用，其在物体检测、识别等领域取得了突破性的进展。一般，人工智能AI算法主要是基于监督式学习的深度学习技术，而训练数据是人工智能模型的驱动力。

目前的训练数据获取方式主要包含开源数据集、网络爬取、线下采集。然而，为了获得大量与学习任务相关的数据，一般需要对开源数据集和网络爬取的数据进行人工筛选分类。在人工筛选阶段，由于参与的人力较多，且筛选分类的标准参差不齐，常常会带来大量分类误差。为了减小分类误差，一般是通过多级人工审核机制纠正分类误差以确保数据质量，但此方法会费大量的人力和时间，数据清洗效率低下。

发明内容

本申请实施例提供一种分类模型的训练方法和装置、移动终端、计算机可读存储介质，可以实现数据的快速高效清洗、节约人力成本。

一种分类模型的训练方法，包括：

基于预设数据集训练分类模型直到所述分类模型的精度达到标准值；其中，所述预设数据集中的数据均携带标注信息；

基于训练后的所述分类模型对所述预设数据集内每个数据进行识别，以获取每个所述数据的类别信息；

当所述数据的类别信息与标注信息不一致时，对所述数据进行清洗，以获取目标数据集；

基于所述目标数据集再次训练所述分类模型。

一种分类模型的训练装置，包括：

模型训练模块，用于基于预设数据集训练分类模型直到所述分类模型的精度达到标准值；其中，所述预设数据集中的数据均携带标注信息；

识别分类模块，用于基于训练后的所述分类模型对所述预设数据集内每个数据进行识别，以获取每个所述数据的类别信息；

数据清洗模块，用于当所述数据的类别信息与标注信息不一致时，对所述数据进行清洗，以获取目标数据集；

模型优化模块，用于基于所述目标数据集再次训练所述分类模型。