[发明专利]一种模型训练的方法、装置、存储介质及电子设备在审
| 申请号: | 202211590716.2 | 申请日: | 2022-12-12 |
| 公开(公告)号: | CN115618237A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 赵闻飙;崔世文;李志峰;许卓尔;孟昌华;王维强;徐恪;李琦 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 模型 训练 方法 装置 存储 介质 电子设备 | ||
本说明书提供了一种模型训练的方法、装置、存储介质及电子设备。在本说明书提供的模型训练方法中,获取训练样本、样本标签以及打标环境信息;将所述训练样本输入待训练的目标模型中,确定所述目标模型的输出结果;将所述打标环境信息输入置信度网络中,通过所述置信度网络输出所述样本标签的置信度;根据所述样本标签的置信度,调整所述目标模型的输出结果,得到修正结果;以所述修正结果与所述样本标签之间的差异最小为优化目标,对所述目标模型与所述置信度网络进行训练。采用本说明书提供的模型训练方法对模型进行有监督训练时,能够根据样本标签的可信程度对模型的输出结果进行修正,保证模型的训练效果,同时使标签的利用率最大化。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型训练的方法、装置、存储介质及电子设备。
背景技术
目前,有监督训练是在模型训练中被广泛使用的方法之一。在有监督训练中,主要会根据样本的标签与被训练的模型的输出结果来对模型的参数进行调整。因此,样本标签是否准确对模型的训练效果起着决定性的作用。
然而,在实际对模型的训练中,往往无法保证训练的标签都是准确的,例如,不同打标用户对样本的理解不同,打出的标签可能也不同;再例如,打标过程中可能会出现恶意打标,故意对样本打上错误的标签。由于上述种种原因,以及用户对自身隐私数据的保护,可能会导致模型在训练时采用了不准确、甚至是错误的标签,最终使模型的训练效果变差。
因此,如何在标签可能有误的情况下保证较好的模型训练效果是一个亟待解决的问题。
发明内容
本说明书提供一种模型训练方法及模型训练装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型训练的方法,包括:
获取训练样本、样本标签以及打标环境信息;
将所述训练样本输入待训练的目标模型中,确定所述目标模型的输出结果;
将所述打标环境信息输入置信度网络中,通过所述置信度网络输出所述样本标签的置信度;
根据所述样本标签的置信度,调整所述目标模型的输出结果,得到修正结果;
以所述修正结果与所述样本标签之间的差异最小为优化目标,对所述目标模型与所述置信度网络进行训练。
可选地,获取训练样本、样本标签以及打标环境信息,具体包括:
根据用户执行的业务确定训练样本;
获取用户执行所述业务的执行结果,根据所述执行结果确定样本标签;
根据所述用户执行所述业务时对应的环境信息,确定打标环境信息。
可选地,根据所述用户在执行业务时对应的环境信息,确定打标环境信息,具体包括:
确定所述用户执行业务时采集的时间信息、位置信息、环境信息以及所述用户的用户特征中的至少一种,作为打标环境信息;和/或,
根据所述用户的用户标识,确定所述用户的用户画像和历史打标信息中的至少一种,作为打标环境信息。
可选地,根据所述样本标签的置信度,调整所述目标模型的输出结果,得到修正结果,具体包括:
根据所述样本标签的置信度,判断所述样本标签是否可信;
当确定所述样本标签不可信时,调整所述目标模型的输出结果,得到修正结果。
可选地,根据所述样本标签的置信度,判断所述样本标签是否可信,具体包括:
当所述样本标签的置信度不小于指定阈值时,确定所述样本标签可信;
当所述样本标签的置信度小于指定阈值时,确定所述样本标签不可信。
可选地,所述目标模型为概率预测模型;
调整所述目标模型的输出结果,得到修正结果,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211590716.2/2.html,转载请声明来源钻瓜专利网。





