[发明专利]基于自适应L-BFGS算法的深度神经网络的批量学习方法有效
申请号: | 202111069585.9 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113705724B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 黄鹤;王俊;曹洪龙;胡丹峰;张永亮 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李柏柏 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 bfgs 算法 深度 神经网络 批量 学习方法 | ||
本发明提出一种基于自适应的L‑BFGS算法的批量学习方法,用于深度神经网络的训练,每次训练时按一定规则选取一部分样本计算更新参数,以减少计算复杂度,同时解决一阶算法(如Mini‑Batch GD)训练时存在的收敛速度慢,易陷入局部最优点等缺点。本发明提出的算法解决了L‑BFGS算法中记忆尺度选择困难的问题。本发明提出的算法引入了多步拟牛顿理论对AL‑BFGS中衡量近似程度的计算公式进行了改进,使得到海塞矩阵逆的近似矩阵与海塞矩阵的逆矩阵之间近似程度更高。本发明提出的算法选取多个记忆尺度,计算出不同的方向进行叠加,得到最终的搜索方向,从而加强对最近曲率信息的使用,加快了收敛速度。
技术领域
本发明涉及深度神经网络领域,具体涉及一种基于自适应L-BFGS算法的深度神经网络的批量学习方法。
背景技术
近年来,由于计算机算力的提高,人工神经网络在计算机视觉,自然语言处理等不同领域取得了巨大成功。而神经网络的训练速度及最终获得的准确率等性能指标主要取决于所采用的训练算法。一些用于训练神经网络的一阶或二阶优化算法相继被提出。目前,在深度学习领域,一阶优化算法得到了快速发展,人们主要设计一阶优化算法来训练深度神经网络。相对来说,二阶优化算法的研究及应用要少很多。L-BFGS算法作为最流行的二阶优化算法之一,对其进行研究并用于训练深度神经网络,不仅可以改进和完善L-BFGS算法,更有助于拓展二阶优化算法在深度学习中的广泛应用,进一步提升深度学习在计算机视觉、自然语言处理等任务中的性能。
发明内容
本发明要解决的技术问题是提供一种基于自适应L-BFGS算法的深度神经网络的批量学习方法。
为了解决上述技术问题,本发明提供了一种基于自适应L-BFGS算法的深度神经网络的批量学习方法,包括:
S1.根据实际问题构建合适的深度神经网络模型,并将模型中所有可调参数即权值和偏置组成的向量初始化为x0,设置最大迭代次数为N,记忆尺度的个数为K;
S2.从训练集中随机选取小批量样本输入到深度神经网络中,根据网络结构逐层计算各神经元的输出,最后得到输出层所有神经元的输出,记为向量o;
S3.根据所选的小批量样本的标签和S2中得到的输出o计算损失函数值在第t次训练时,通过反向传播公式计算出损失函数的梯度并计算相应的st和yt;其中,st=xt-xt-1,yt=gt-gt-1;
S4.根据指数平滑法预测当前迭代的记忆尺度值其中,表示前一时刻所选K个记忆尺度的平均值,表示前一时刻预测的记忆尺度值,α∈(0,1);
S5.根据公式调整候选区间{1,2,...,M}的上界M;其中,c1∈(0,1),d是预先设定的一个常量,Mt-1是前一时刻候选区间的上界;
S6.利用多步拟牛顿公式计算和更新最近M组向量对
S7.令m=1,...,M,根据公式计算e1,e2,...,eM;其中,Hm,2是由向量对(γM-m,ωM-m),...,(γM-2,ωM-2)计算得到的拟牛顿矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111069585.9/2.html,转载请声明来源钻瓜专利网。