[发明专利]一种模型训练方法及装置有效
申请号: | 202011561292.8 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112560988B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 简仁贤;王海波;马永宁 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F40/35 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 | ||
本申请提供了一种模型训练方法及装置,该方法包括:使用当前训练集进行训练,获得当前训练模型;使用所述当前训练模型对非目标训练集进行预测,获得当前预测结果;当所述当前预测结果满足迭代停止条件时,将当前训练模型作为目标模型的最优训练模型。本申请上述实施例提供的技术方案,不仅可以解决多个模型之间干扰的问题,并且所训练出的模型具有鲁棒性。
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种模型训练方法及装置。
背景技术
自然语言处理系统在实际部署时,经常会面临多个模型共存的问题,即多个模型同时部署在同一个系统中。当系统由多个模型组成时,多个模型之间会存在相互干扰的问题。例如,原本属于A模型的内容会误识别为B模型的内容,导致B模型处理A模型的内容,最终处理结果出错。
为了解决多个模型之间的干扰问题,通常的做法是将非本模型的训练数据汇总在一起,然后与本模型的训练数据一起对本模型进行训练。所获得的训练后的本模型虽然可以在一定程度上缓解误识别的情况,但是由于合并数据导致的数据不均衡问题,通过这种训练方式所训练出的模型会出现偏差,导致最终训练出的模型存在严重的偏见,无法代表本模型的情况。
发明内容
有鉴于此,本申请实施例提供了一种迭代采样的模型训练方法,不仅可以解决多个模型之间干扰的问题,并且所训练出的模型具有鲁棒性。
本申请实施例提供的了一种迭代采样的模型训练方法,包括:
使用当前训练集进行训练,获得当前训练模型;
使用所述当前训练模型对非目标训练集进行预测,获得当前预测结果;
当所述当前预测结果满足迭代停止条件时,将当前训练模型作为目标模型的最优训练模型;
其中,所述非目标训练集由非目标模型的训练数据汇集而成,第一个当前训练集由目标模型的训练数据和N1个非目标训练集中的数据汇集而成。
在一个实施例中,当所述当前预测结果不满足迭代停止条件时,选取N2个导致不满足迭代停止条件的数据加入当前训练集中,形成下一个当前训练集。
在一个实施例中,所述使用所述当前训练模型对非目标训练集进行预测,获得当前预测结果,包括:所述当前训练模型预测所述非目标训练集中的每个数据是否与所述当前训练模型有关,当数据与所述当前训练模型有关时,将该数据标注为相关数据;统计相关数据的数量,并作为所述当前预测结果。
在一个实施例中,所述当所述当前预测结果不满足迭代停止条件时,选取N2个导致不满足迭代停止条件的数据加入当前训练集中,包括:当所述相关数据的数量大于预设数量阈值时,选取N2个所述相关数据加入所述当前训练集中。
在一个实施例中,所述当所述当前预测结果不满足迭代停止条件时,选取N2个导致不满足迭代停止条件的数据加入当前训练集中,包括:计算所述相关数据在所述非目标训练集中的比例,当该比例大于预设比例阈值时,选取N2个所述相关数据加入所述当前训练集中。
在一个实施例中,所述N1、N2、预设数量阈值和预设比例阈值均为超参数。
在一个实施例中,所述N1为目标模型的训练数据量和目标模型的训练数据类目量的比值。
在一个实施例中,当所述相关数据的数量小于N2的五分之一时,所述N2为相关数据的数量;当所述相关数据大于等于N2的五分之一时,所述N2为N1的五分之一。
在一个实施例中,所述预设比例阈值为1%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011561292.8/2.html,转载请声明来源钻瓜专利网。