[发明专利]神经网络模型的训练方法及装置在审
申请号: | 201911415075.5 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111144567A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 蒋亮;温祖杰;梁忠平;张家兴 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 方法 装置 | ||
本说明书实施例提供一种神经网络模型的训练方法及装置。模型训练过程包括若干子训练过程,一个子训练过程包括预设数量个训练周期。在第N子训练过程的第M训练周期中,当第N子训练过程非首个子训练过程,且第M训练周期非首个训练周期时,基于第N‑1子训练过程的最后一个训练周期训练结束时得到的第一目标模型,以及第N子训练过程中的第M‑1训练周期训练结束时得到的第二目标模型,对待训练神经网络模型的训练过程进行调整,更新待训练神经网络模型。
技术领域
本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种神经网络模型的训练方法及装置。
背景技术
深度学习在计算机视觉、自然语言处理领域都取得了远超传统方法的效果,现在已经成为人工智能领域非常主流的方法。通常来讲,神经网络的深度越深,期望的预测效果越好。在对神经网络模型进行训练时,可以采集大量的文本、图像、视频等样本数据,并依据针对样本数据标注的标签,对神经网络模型进行训练,以使得神经网络模型对输入数据的预测结果与标注的标签逐渐接近。
因此,希望能有改进的方案,可以提高神经网络模型训练的有效性,在使用神经网络模型对业务数据进行业务预测时可以提高业务预测的准确性。
发明内容
本说明书一个或多个实施例描述了一种神经网络模型的训练方法及装置,以提高神经网络模型训练的有效性,进而使得神经网络模型对业务数据的业务预测更准确。具体的技术方案如下。
第一方面,提供了一种神经网络模型的训练方法,通过计算机执行,所述神经网络模型的模型训练过程包括若干子训练过程,任意一个子训练过程包括预设数量个训练周期,每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程;所述神经网络模型用于对输入的业务数据进行业务预测;所述方法包括:
获取当前的第N子训练过程中第M训练周期的待训练神经网络模型;
获取所述训练样本集中的第一样本数据和对应的第一标注数据;
将所述第一样本数据输入所述待训练神经网络模型,得到所述第一样本数据的第一预测数据;
当所述第N子训练过程不是第一个子训练过程,且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时,基于第一目标模型获取所述第一样本数据的第二预测数据,基于第二目标模型获取所述第一样本数据的第三预测数据;其中,所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型,所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型;
根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较,确定第一预测损失;
向使得所述第一预测损失减小的方向,更新所述待训练神经网络模型。
在一种实施方式中,该方法还包括:
检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据;
如果是,则将更新后的待训练神经网络模型确定为所述第M训练周期结束时得到的神经网络模型。
在一种实施方式中,该方法还包括:
当所述第N子训练过程不是第一个子训练过程,且所述第M训练周期是所述第N子训练过程中的第一个训练周期时,基于第一目标模型获取所述第一样本数据的第二预测数据;其中,所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型;
根据所述第一标注数据和所述第二预测数据分别与所述第一预测数据之间的比较,确定第二预测损失;
向使得所述第二预测损失减小的方向,更新所述待训练神经网络模型。
在一种实施方式中,该方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911415075.5/2.html,转载请声明来源钻瓜专利网。