[发明专利]机器学习模型的训练方法及装置、样本处理方法及装置有效
| 申请号: | 202010104680.7 | 申请日: | 2020-02-20 |
| 公开(公告)号: | CN111340233B | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 张望舒;温祖杰 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08;G06N7/00 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器 学习 模型 训练 方法 装置 样本 处理 | ||
1.一种机器学习模型的训练方法,包括:
获取原始样本集和用于执行相同任务的多个预测模型,所述相同任务为确定用户会话对应的标准问题,所述多个预测模型为多个标问预测模型;
基于所述原始样本集,对所述多个预测模型进行多轮训练,得到多个训练后模型;其中,所述多轮训练中的任一轮训练具体包括:
对所述原始样本集进行采样,得到若干原始样本,其中包括任意的第一原始样本,所述第一原始样本中包括第一样本特征和第一样本标签;其中,所述第一原始样本为客服场景下的第一用户会话样本,所述第一样本特征包括第一用户会话特征,所述第一样本标签指示第一用户标准问题;
将所述第一样本特征分别输入所述多个预测模型中,得到多个第一预测结果;
至少基于所述多个第一预测结果和所述第一样本标签,确定出现频次最高的第一最高频结果;
在所述第一最高频结果唯一的情况下,利用所述第一最高频结果对所述第一样本标签进行修正,得到第一修正样本;
利用根据所述若干原始样本得到的若干修正样本,分别训练所述多个预测模型。
2.根据权利要求1所述的方法,其中,获取的多个预测模型为N个预训练模型,所述N个预训练模型基于以下步骤而得到:
将所述原始样本集分割为N个样本集,其中包括第i个样本集;
获取参数初始化的N个初始模型,其中包括第i个初始模型;
利用所述第i个样本集训练所述第i个初始模型,得到第i个预训练模型,归入所述N个预训练模型;
其中,i和N为正整数,并且N≥2,i≤N。
3.根据权利要求2所述的方法,其中,所述N个初始模型对应N套初始化模型参数,所述N套初始化模型参数中任意的两套模型参数不完全相同。
4.根据权利要求3所述的方法,其中,获取参数初始化的N个初始模型,包括:
设定互不相同的N个随机种子;
基于随机算法,利用所述N个随机种子对应生成N套随机数,作为所述N套初始化模型参数。
5.根据权利要求1所述的方法,其中,所述若干原始样本为多个原始样本,其中至少基于所述多个第一预测结果和所述第一样本标签,确定出现频次最高的第一最高频结果,包括:
确定所述多个原始样本中与所述第一原始样本具有相同样本特征的若干其他样本,所述若干其他样本中对应包括若干其他标签;
基于所述多个第一预测结果、所述第一样本标签和所述若干其他标签,确定所述第一最高频结果。
6.根据权利要求1所述的方法,其中,在确定出现频次最高的第一最高频结果之后,以及在分别训练所述多个预测模型之前,所述方法还包括:
在所述第一最高频结果不唯一的情况下,舍弃所述第一原始样本。
7.根据权利要求1所述的方法,其中,在得到多个训练后模型之后,所述方法还包括:
利用测试样本集,分别对所述多个训练后模型进行性能测试;
基于所述性能测试的结果,从所述多个训练后模型中选取性能最优的训练后模型作为针对所述相同任务的最终使用模型。
8.一种样本处理方法,包括:
获取原始样本集,其中包括任意的第一原始样本,所述第一原始样本中包括第一样本特征和第一样本标签;其中,所述第一原始样本为客服场景下的第一用户会话样本,所述第一样本特征包括第一用户会话特征,所述第一样本标签指示第一用户标准问题;
获取用于执行相同任务的多个预测模型,所述相同任务为确定用户会话对应的标准问题,所述多个预测模型为多个标问预测模型;
将所述第一样本特征分别输入所述多个预测模型中,得到多个第一预测结果;
至少基于所述多个第一预测结果和所述第一样本标签,确定出现频次最高的第一最高频结果;
在所述第一最高频结果唯一的情况下,利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正,得到第一修正样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010104680.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:类型确定方法及装置
- 下一篇:基于AMP系统的FLASH访问处理方法及装置





