[发明专利]一种加速训练循环神经网络的混合激活函数确定方法在审
申请号: | 202011030197.5 | 申请日: | 2020-09-25 |
公开(公告)号: | CN114254729A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 张宁;沈水龙;郑钤;闫涛 | 申请(专利权)人: | 汕头大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 周增元 |
地址: | 515000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 加速 训练 循环 神经网络 混合 激活 函数 确定 方法 | ||
本发明公开了一种加速训练循环神经网络的混合激活函数确定方法,包括步骤:初始化循环神经网络的权值参数W,以及混合激活函数的参数;将数据集输入循环神经网络,计算误差分量,更新权值参数,计算代价函数下降幅度;若代价函数下降幅度Jd满足预设条件,则更新激活函数参数;迭代训练循环神经网络,直至代价函数J小于预设数值χ或达到预定迭代训练次数。采用本发明,结合双曲正切函数和线性函数,提出了混合激活函数,彻底消除激活函数的饱和区,确保激活函数在误差反向传播过程中其导数不再为0。本方法简单、实用,便于推广,具有很大的应用价值。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种加速训练循环神经网络的混合激活函数确定方法。
背景技术
循环神经网络在时间维度上存在权值连接,能够反映序列数据在时间维度的相关性,因此被广泛用于时间序列相关的数据处理任务。然而,在误差反向传播过程中,不同于非循环神经网络仅在不同层数之间传递误差,循环神经网络仍需在时间维度传递误差,且其在时间维度的长度往往远大于其层数。在训练神经网络模型时,过大的时间维度长度将导致误差在传播过程中的不断损失,进而引起梯度消失问题。梯度消失问题是在误差反向传播过程中由于累积的乘法运算而导致的误差逐渐为0,进而权值矩阵梯度为0的问题。梯度消失问题将会导致循环神经网络训练困难且缓慢,提高训练成本,甚至导致训练失败。在误差反向传播过程中,激活函数对梯度消失问题起到决定性作用。目前循环神经网络采用的激活函数主要为sigmoid函数和tanh函数。其他激活函数如ReLU等,因其导数过大,在长时间序列的循环神经网络中易引起梯度爆炸问题。因此,有必要提出针对循环神经网络在时间维度的梯度消失问题的解决方法。
经对现有技术文献检索发现,中国专利申请公布号为“CN 109857867A”,专利名称为《一种基于循环神经网络的激活函数参数化改进方法》,该专利自述为:“本发明在密集连接的双向长短期记忆网络的基础上,通过参数化激活函数模块,使得S型激活函数的非饱和区域得到扩展,同时避免函数的导数过小,防止梯度消失现象的发生。”该方法所提出的参数化激活函数模块,仅仅扩大了激活函数的非饱和区。在无限的值域内,饱和区的范围仍然占据主导,因此并不能彻底消除梯度消失问题。
发明内容
本发明所要解决的技术问题在于,提供一种加速训练循环神经网络的混合激活函数确定方法。可针对现有激活函数存在的梯度消失问题,提出了混合激活函数,彻底消除激活函数的饱和区,确保激活函数在误差反向传播过程中其导数不再为0,方法简单,易于推广。
为了解决上述技术问题,本发明提供了一种加速训练循环神经网络的混合激活函数确定方法,所述方法通过下列步骤实现:
第一步、初始化循环神经网络的权值参数W,以及混合激活函数的参数α、β、λ;
优选地,所述权值参数W是指:泛指循环神经网络节点之间可训练的参数;
优选地,所述初始化是指:为权值参数W和激活函数参数α、β、λ指定初始值,满足公式(1):
其中,U为均匀分布,Nl为LSTM模型第l层数据层的节点数量,L为循环神经网络的层数。
优选地,所述混合激活函数是指:由双曲正切函数和线性单元混合组成的激活函数,满足公式(2):
其中,f(x)为混合激活函数,f'(x)为混合激活函数的导数,tanh(x)为双曲正切函数,α、β、λ为混合激活函数系数;
第二步、将数据集输入循环神经网络,计算误差分量,更新权值参数W,计算代价函数下降幅度Jd;
优选地,所述数据集是指:由训练和测试循环神经网络的数据样本组成的数据集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汕头大学,未经汕头大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030197.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种拟合多尺度数据集的多尺度神经网络方法
- 下一篇:一种夹持机构及云台