[发明专利]一种长短时神经网络的训练方法及装置在审

申请号：	202210066193.5	申请日：	2022-01-20
公开（公告）号：	CN114416994A	公开（公告）日：	2022-04-29
发明（设计）人：	吴明慧;樊劲松;张寅	申请（专利权）人：	大唐融合通信股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	曹娜
地址：	100029 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种长短神经网络训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种长短时神经网络的训练方法及装置，其中，应用于一神经网络单元的方法，包括：获取第一环节的第一输入；对第一输入进行压缩处理，得到第二输入；根据第二输入以及第一环节对应的激活函数和/或第一计算公式，获取第一环节对应的第一输出；若第一环节为输出环节，确定第一输出为神经网络单元的隐藏层输出，或者，若第一环节不为输出环节，进行第二环节中基于第一输出的第一子环节的处理，其中，第一子环节位于第一环节之后。通过减小输入梯度的方式，限制了每个环节的增加比例，延缓了梯度达到饱和的速度，增加了后期的训练速度。

技术领域

本申请涉及神经网络技术领域，特别涉及一种长短时神经网络的训练方法及装置。

背景技术

文本分类是自然语言处理的一个基本操作，一般通过建立模型分析词、句的结构特征来对文本进行分类。目前，常采用深度学习算法来进行文本分类，深度学习算法中采用的模型主要包括：卷积神经网络、循环神经网络、注意力机制等模型。

基于时间(状态)的循环机制，循环神经网络(Recurrent Neural Network，简称RNN)能将时间序列的上下文信息考虑在内，但在训练过程中存在梯度消失问题(即梯度向量的分量在长时序列上呈指数降低)。长短时神经网络，在RNN的基础上设立细胞状态保存历史信息、设立输入门更新细胞状态、设立遗忘门清除无用历史信息，从而分离了记忆模块与数据输入模块，能够通过门结构控制信息的输入与传播比例，缓解梯度消失，但是仍然不能完全解决此问题。为此如何进一步缓解或解决梯度消失问题成为本领域的一重要技术问题。

发明内容

本申请实施例要达到的技术目的是提供一种长短时神经网络的训练方法及装置，用以解决当前长短时神经网络的训练仍存在梯度消失较快的问题。

为解决上述技术问题，本申请实施例提供了一种长短时神经网络的训练方法，应用于一神经网络单元，包括：

获取第一环节的第一输入，第一环节为神经网络单元的多个环节中的任意一个，环节包括：遗忘环节、输入环节和输出环节中的至少一项；

对第一输入进行压缩处理，得到第二输入；

根据第二输入以及第一环节对应的激活函数和/或第一计算公式，获取第一环节对应的第一输出；

若第一环节为输出环节，确定第一输出为神经网络单元的隐藏层输出，或者，若第一环节不为输出环节，进行第二环节中基于第一输出的第一子环节的处理，其中，第一子环节位于第一环节之后。

具体地，如上所述的长短时神经网络的训练方法，

遗忘环节中的子环节至少包括遗忘门环节；

输入环节中的子环节至少包括输入门环节、输入信息获取环节和细胞状态更新环节中的一项；

输出环节中的子环节至少包括输出门环节和隐藏输出环节中的一项。

具体地，如上所述的长短时神经网络的训练方法，第一输入包括下述中的至少一项：