[发明专利]一种长短时神经网络的训练方法及装置在审
申请号: | 202210066193.5 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114416994A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 吴明慧;樊劲松;张寅 | 申请(专利权)人: | 大唐融合通信股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 曹娜 |
地址: | 100029 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 长短 神经网络 训练 方法 装置 | ||
本申请提供了一种长短时神经网络的训练方法及装置,其中,应用于一神经网络单元的方法,包括:获取第一环节的第一输入;对第一输入进行压缩处理,得到第二输入;根据第二输入以及第一环节对应的激活函数和/或第一计算公式,获取第一环节对应的第一输出;若第一环节为输出环节,确定第一输出为神经网络单元的隐藏层输出,或者,若第一环节不为输出环节,进行第二环节中基于第一输出的第一子环节的处理,其中,第一子环节位于第一环节之后。通过减小输入梯度的方式,限制了每个环节的增加比例,延缓了梯度达到饱和的速度,增加了后期的训练速度。
技术领域
本申请涉及神经网络技术领域,特别涉及一种长短时神经网络的训练方法及装置。
背景技术
文本分类是自然语言处理的一个基本操作,一般通过建立模型分析词、句的结构特征来对文本进行分类。目前,常采用深度学习算法来进行文本分类,深度学习算法中采用的模型主要包括:卷积神经网络、循环神经网络、注意力机制等模型。
基于时间(状态)的循环机制,循环神经网络(Recurrent Neural Network,简称RNN)能将时间序列的上下文信息考虑在内,但在训练过程中存在梯度消失问题(即梯度向量的分量在长时序列上呈指数降低)。长短时神经网络,在RNN的基础上设立细胞状态保存历史信息、设立输入门更新细胞状态、设立遗忘门清除无用历史信息,从而分离了记忆模块与数据输入模块,能够通过门结构控制信息的输入与传播比例,缓解梯度消失,但是仍然不能完全解决此问题。为此如何进一步缓解或解决梯度消失问题成为本领域的一重要技术问题。
发明内容
本申请实施例要达到的技术目的是提供一种长短时神经网络的训练方法及装置,用以解决当前长短时神经网络的训练仍存在梯度消失较快的问题。
为解决上述技术问题,本申请实施例提供了一种长短时神经网络的训练方法,应用于一神经网络单元,包括:
获取第一环节的第一输入,第一环节为神经网络单元的多个环节中的任意一个,环节包括:遗忘环节、输入环节和输出环节中的至少一项;
对第一输入进行压缩处理,得到第二输入;
根据第二输入以及第一环节对应的激活函数和/或第一计算公式,获取第一环节对应的第一输出;
若第一环节为输出环节,确定第一输出为神经网络单元的隐藏层输出,或者,若第一环节不为输出环节,进行第二环节中基于第一输出的第一子环节的处理,其中,第一子环节位于第一环节之后。
具体地,如上所述的长短时神经网络的训练方法,
遗忘环节中的子环节至少包括遗忘门环节;
输入环节中的子环节至少包括输入门环节、输入信息获取环节和细胞状态更新环节中的一项;
输出环节中的子环节至少包括输出门环节和隐藏输出环节中的一项。
具体地,如上所述的长短时神经网络的训练方法,第一输入包括下述中的至少一项:
输入时间窗口对应的目标特征向量、第三环节的第二输出、参考隐藏层输出以及参考细胞状态;
其中,第三环节位于第一环节中的第二子环节之前,第二子环节基于第二输出进行处理;
当神经网络单元为初始神经网络单元时,参考隐藏层输出为预设输出,参考细胞状态为预设细胞状态;当神经网络单元不为初始神经网络单元时,参考隐藏层输出为前一个神经网络单元的隐藏层输出,参考细胞状态为前一个神经网络单元输出的细胞状态。
优选地,如上所述的长短时神经网络的训练方法,对第一输入进行压缩处理,得到第二输入包括:
根据第一环节中子环节的类型,获取与激活函数的自变量对应的第二计算公式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大唐融合通信股份有限公司,未经大唐融合通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210066193.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种氯代醚类电解液及其应用
- 下一篇:厚壁管道焊缝多级加热装置及加热方法