[发明专利]一种网络模型训练方法、装置及存储介质有效
申请号: | 201910541586.5 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110222842B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 肖月庭;阳光;郑超 | 申请(专利权)人: | 数坤(北京)网络科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 赵李 |
地址: | 100000 北京市朝阳区广顺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 模型 训练 方法 装置 存储 介质 | ||
本申请公开一种网络模型训练方法、装置及存储介质,属于网络模型技术领域。该网络模型训练方法包括:获取携带有标注的样本数据;利用所述样本数据对当前网络模型进行训练;获取训练后的所述当前网络模型中的各个层结构的权重变化量;根据所述各个层结构的权重变化量变更所述当前网络模型的层结构;利用所述样本数据对层结构变更后的所述当前网络模型进行训练。本申请实施例中,在对网络模型进行训练时,通过不断的调整网络模型的网络结构,以及各个层级的参数,以此确定出性能最优的网络模型,让该模型有更优的效果。
技术领域
本申请属于网络模型技术领域,具体涉及一种网络模型训练方法、装置及存储介质。
背景技术
深度学习近年迅速发展,已经广泛应用于图像处理和自然语言处理等领域。基于深度学习的网络模型被广泛应用,如卷积神经网络、分割网络等,在使用这些网络模型时,需要事先利用样本数据对其进行训练,使其能满足需求,这其中就涉及确定模型—训练模型—使用模型等过程。当前的模型训练方法大都是基于大量样本数据对确定的初始网络模型进行多次训练,通过不断的优化初始网络模型的网络参数(也即权重)的方式来实现。该训练方法训练出来的模型整体来说,性能并不是最优的,还存在一定的改进空间,例如,现有的图像语义分割网络,例如,FCN(Fully Convolutional Networks)、CRF-RNN(Conditional Random Fields-Recurrent Neural Networks)等,在分割区域边缘处的训练识别效果比较差,语义分割准确率低。
发明内容
鉴于此,本申请的目的在于提供一种网络模型训练方法、装置及存储介质,以提高网络模型的性能,让该模型有更优的效果。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种网络模型训练方法,包括:获取携带有标注的样本数据;利用所述样本数据对当前网络模型进行训练;获取训练后的所述当前网络模型中的各个层结构的权重变化量;根据所述各个层结构的权重变化量变更所述当前网络模型的层结构;利用所述样本数据对层结构变更后的所述当前网络模型进行训练。
本申请实施例中,在对网络模型进行训练时,先利用样本数据对网络模型进行训练,后获取训练后的网络模型中的各个层结构的权重变化量,并基于获取到的各个层结构的权重变化量变更网络模型的层结构,然后再利用样本数据对层结构变更后的网络模型进行训练,通过调整网络模型的网络结构,以及各个层级的参数,以得到性能更优的网络模型,让该模型有更优的效果。
结合第一方面实施例的一种可能的实施方式,根据所述各个层结构的权重变化量变更所述当前网络模型的层结构,包括:根据所述各个层结构的权重变化量,选出权重变化量大于第一阈值的目标层结构;若所述目标层结构为中间层,在所述目标层结构的前面和/或后面插入预设层结构;若所述目标层结构为第一层,在所述目标层结构的后面插入预设层结构;若所述目标层结构为最后一层,在所述目标层结构的前面插入预设层结构。本申请实施例中,通过在权重变化量大于第一阈值的目标层结构的前面和/或后面插入预设层结构来改变网络模型的结构,由于权重变化量值较大,说明该目标层结构对损失值的影响较大,结构还可以进一步优化,使得性能更优。
结合第一方面实施例的一种可能的实施方式,根据所述各个层结构的权重变化量,选出权重变化量大于第一阈值的目标层结构,包括:根据所述各个层结构的权重变化量,选出权重变化量大于所述第一阈值的层结构;确定选出的层结构中权重变化量值最大的层结构为所述目标层结构。本申请实施例中,只在权重变化量最大,且大于第一阈值目标层结构的前面和/或后面插入预设层结构来改变网络模型的结构,以此来较少层结构的数量,进而减少计算量,提高优化效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数坤(北京)网络科技有限公司,未经数坤(北京)网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910541586.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于间距损失函数的神经网络训练方法和装置
- 下一篇:一种噪声预测系统及方法