[发明专利]一种独立化长短期记忆网络模型的构建方法在审
申请号: | 201810583664.3 | 申请日: | 2018-06-07 |
公开(公告)号: | CN109086864A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 庄连生;李厚强;唐明宇;杨健 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 李坤 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 记忆网络 构建 初始化 后向 更新 传播 优化 | ||
本公开提供了一种独立化长短期记忆网络模型的构建方法,包括:步骤S101:初始化独立化长短期记忆网络模型的参数;步骤S201:对独立化长短期记忆网络模型进行更新;步骤S301:利用梯度后向传播优化独立化长短期记忆网络模型。
技术领域
本公开涉及属于人工智能领域,尤其涉及一种独立化长短期记忆网络模型的构建方法。
背景技术
在深度学习领域,时序数据分析的关键在于建立不同时刻时序数据之间的联系。现有时序数据分析一般采用循环神经网络(RNN)及其变种(如LSTM),通过将当前时刻的数据输出作为下一时刻的额外输入,以此建立起不同时刻时序数据之间的联系,进而实现神经网络的记忆功能。然而,现有循环神经网络模型对历史信息的记忆能力严重不足,主要表现在:只能建立短时间内序列数据之间的关联性,无法建立相距较远序列数据之间的关联性。为此,本发明构建了一种新型的循环神经网络结构,实现超长时序数据记忆能力。
与本发明密切相关的神经网络模型是长短期记忆网络模型(LSTM)。该模型通过制定门结构使得时序信息能够在时间上传递得更久,从而实现记忆功能。但是,LSTM仅仅是减缓的梯度的后向传递问题,将原有的梯度矩阵连乘转化为一系列矩阵的加和,但是加和分量中依然包含了大量矩阵的连乘。在应用记忆模块进行数据更新的时候,传统的结构使用了矩阵乘法以确保信息之间的相互影响,但是该做法在处理长序列时容易产生梯度爆炸、梯度消失等问题。
公开内容
(一)要解决的技术问题
为了解决上述问题,本公开提出一种独立化长短期记忆网络模型的构建方法。
(二)技术方案
本公开提供了一种独立化长短期记忆网络模型的构建方法,包括:步骤S101:初始化独立化长短期记忆网络模型的参数;步骤S201:对独立化长短期记忆网络模型进行更新;步骤S301:利用梯度后向传播优化独立化长短期记忆网络模型。
在本公开的一些实施例中,所述步骤S201包括:子步骤S201a:将时间序列输入独立化长短期记忆网络模型;子步骤S201b:根据时间序列和记忆模块更新输入门;子步骤S201c:根据时间序列和记忆模块更新遗忘门;子步骤S201d:更新记忆模块;子步骤S201e:根据时间序列和记忆模块更新输出门;子步骤S201f:更新输出。
在本公开的一些实施例中,所述更新输入门的表达式为:
其中,it表示时间步t的输入门;σ表示饱和的激活函数;表示向量间的元素对应乘法;xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块;Wxi表示输入向量与输入门之间的参数矩阵;Wci表示记忆模块与输入门之间的参数矩阵。
在本公开的一些实施例中,所述更新遗忘门的表达式为:
其中,ft表示时间步t的遗忘门;Wxf表示输入向量与遗忘门之间的参数矩阵;Wcf表示记忆模块与遗忘门之间的参数矩阵;σ表示饱和的激活函数;表示向量间的元素对应乘法;xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块。
在本公开的一些实施例中,所述更新记忆模块的表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810583664.3/2.html,转载请声明来源钻瓜专利网。