[发明专利]神经网络的训练方法和装置在审
申请号: | 202010601850.2 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111753964A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 希滕;张刚;温圣召 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练 方法 装置 | ||
1.一种神经网络的训练方法,所述方法包括:
获取待训练的神经网络;
确定搜索空间,其中,所述搜索空间用于确定所述神经网络在训练中学习率的衰减方式,不同的衰减方式所对应的、学习率的衰减参数的参数值不同;
基于各个候选衰减方式,在所述搜索空间中搜索一个候选衰减方式作为目标衰减方式,其中,每次搜索基于不同的衰减方式且对所述神经网络进行至少两个轮次迭代的训练。
2.根据权利要求1所述的方法,其中,所述衰减参数包括以下至少一项:
学习率的衰减轮次数、进行学习率衰减的目标迭代轮次、每个目标迭代轮次的目标学习率数据。
3.根据权利要求1或2所述的方法,其中,对所述神经网络的训练以分布式的方式在不同主体执行,所述不同主体包括至少两个电子设备中的多个处理器;
所述基于各个候选衰减方式,在所述搜索空间中搜索一个候选衰减方式作为目标衰减方式,包括:
对于每个所述候选衰减方式,基于该候选衰减方式,在所述不同主体以至少两个衰减速度进行一轮次学习率的衰减过程,并以衰减得到的学习率进行迭代;
在与各个所述候选衰减方式分别对应的、所述至少两个轮次迭代的训练后的神经网络中,确定目标神经网络,并将与所述目标神经网络对应的候选衰减方式作为所述目标衰减方式。
4.根据权利要求3所述的方法,其中,所述在与各个所述候选衰减方式分别对应的、所述至少两个轮次迭代的训练后的神经网络中,确定目标神经网络,包括:
对于每一次搜索,基于该次搜索对应的参数值,利用该次搜索对应的训练后的神经网络检测图像,生成检测结果;
确定各次搜索的检测结果对应的检测效果,并基于所述检测效果,确定所述目标神经网络。
5.根据权利要求4所述的方法,其中,所述检测效果包括检测耗时和/或检测精度;
所述基于所述检测效果,确定所述目标神经网络,包括:
确定各次搜索对应的检测效果中,是否存在预设效果范围内的检测效果;
若不存在,则更新所述候选衰减方式对应的参数值,并利用更新后的参数值,在所述搜索空间中继续搜索,并确定所述目标神经网络。
6.根据权利要求5所述的方法,其中,所述方法还包括:
获取衰减方式确定模型,其中,所述衰减方式确定模型用于对于每次搜索,对每个衰减参数确定一个参数值;
将各个衰减参数的可选参数值,输入所述衰减方式确定模型,生成输出值,其中,所述输出值包括每次搜索所对应的、衰减参数的参数值。
7.根据权利要求6所述的方法,其中,所述方法还包括:
获取基于所述检测效果训练所述衰减方式确定模型所得到的训练后的衰减方式确定模型;以及
所述若不存在,则更新所述候选衰减方式对应的参数值,包括:
若不存在,则将各个衰减参数的可选参数值,输入所述衰减方式确定模型,生成新的输出值,将所述候选衰减方式对应的参数值,更新为所述新的输出值。
8.一种神经网络的训练装置,所述装置包括:
获取单元,被配置成获取待训练的神经网络;
确定单元,被配置成确定搜索空间,其中,所述搜索空间用于确定所述神经网络在训练中学习率的衰减方式,不同的衰减方式所对应的、学习率的衰减参数的参数值不同;
搜索单元,被配置成基于各个候选衰减方式,在所述搜索空间中搜索一个候选衰减方式作为目标衰减方式,其中,每次搜索基于不同的衰减方式且对所述神经网络进行至少两个轮次迭代的训练。
9.根据权利要求8所述的装置,其中,所述衰减参数包括以下至少一项:
学习率的衰减轮次数、进行学习率衰减的目标迭代轮次、每个目标迭代轮次的目标学习率数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010601850.2/1.html,转载请声明来源钻瓜专利网。