[发明专利]一种简化的门控单元神经网络在审
申请号: | 201811017375.3 | 申请日: | 2018-09-01 |
公开(公告)号: | CN109376848A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 王鑫;张玲玲;王磊;任龙;关智允;徐东;张子迎;孟宇龙;李贤;宫思远 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种简化的门控单元神经网络,属于深度学习领域。本发明包括:对输入数据集进行数据清洗,选择经典数据集,如Iris数据集,此过程处理数据不平衡问题、归一化以及冗余数据处理问题;利用数据预处理后的数据集训练OGRU神经网络,建立预测模型;获取数据集,进行数据预处理过程,然后输入所获得的OGRU预测模型进行模型预测,得到预测结果。本发明克服传统GRU神经网络结构过于复杂,泛化能力差的问题,并且应用OGRU建立精确高效的预测模型,解决传统方法训练时间过长问题。 | ||
搜索关键词: | 神经网络 预测模型 数据集 门控单元 数据预处理过程 冗余数据处理 神经网络结构 输入数据集 数据预处理 过程处理 获取数据 模型预测 数据清洗 预测结果 归一化 应用 学习 | ||
【主权项】:
1.一种简化的门控单元神经网络,其特征在于,包含以下步骤:步骤一:对输入数据集进行数据清洗,选择经典数据集,如Iris数据集;此过程处理数据不平衡问题、归一化以及冗余数据处理问题;数据不平衡问题的处理:首先分析正负样本比例,其次根据数据集大小采用不同的采样方法处理;如果数据量较充足,采取欠采样的方法,通过减少样本数据较多的类的数量来平衡数据集;如果数据量较少,采取过采样的方法,通过增加数量较少的类的数量来平衡数据集;归一化处理:将需要处理的数据经过处理后,限制在一定范围内;归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快;根据不同占比采取不同归一化方式处理,若某一特征占比高,删除该特征;处理冗余数据:处理缺失后,根据预测的具体问题分析并提取特征,对主成分进行分析,去掉冗余特征数据,防止其干扰训练结果;步骤二:利用数据预处理后的数据集训练OGRU神经网络,建立预测模型:OGRU神经网络由输入层、输出层、隐含层组成,隐含层由OGRU神经元构成,OGRU神经网络的输入数据为经过数据预处理后的的t时刻的数据,输出数据为预测的结果;OGRU是在GRU的基础上简化而来;标准LSTM单元包括输入门input gate、遗忘门forget gate、输出门output gate和cell单元;而标准的GRU则是LSTM的变体,GRU单元组合了遗忘门和输入门为一个“更新门”,它合并了神经元状态和隐层状态,只有更新门和重置门;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准GRU单元输出计算公式如下所示:zt=σ(Wz*[ht‑1,xt]) (1)rt=σ(Wr*[ht‑1,xt]) (2)nt=tanh(W*[rt*ht‑1,xt]) (3)ht=(1‑zt)*ht‑1+zt*nt (4)其中zt表示t时刻更新门的输出;Wt表示输入和ht‑1之间的权重;rt表示t时刻重置门的输出;Wr表示输入和ht‑1之间的权重;其中ht‑1表示t‑1时刻标准GRU单元输出;xt表示t时刻的输入的数据;nt表示t时刻用tanh层来创建的一个新的候选值向量,并将其加入到当前状态中;W表示更新门的输出zt和输入之间的权重;ht表示t时刻标准GRU单元的输出,更新当前神经元状态,把前一层状态ht‑1与(1‑zt)相乘,丢弃需要丢弃的信息,加上zt与nt相乘,就是新的候选值,即标准GRU的输出;σ为sigmoid激活函数,sigmoid与tanh为两种神经网络常用的神经元激活函数;在更新门做出改进,将原更新门输入中的ht‑1更改为ht‑1与rt相乘,即用重置门的输出来调整更新门,对其进行反馈;多加一次更新迭代,通过控制同一时刻低层的记忆单元向邻近高层记忆单元的信息流传输,以求实现预测结果的高精准;提出一种基于标准GRU改进的变体神经网络,OGRU神经网络;OGRU是GRU的变体,它组合重置门与输入,对更新门进行“更新”并输出;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准OGRU单元输出计算公式如下所示:rt=σ(Wr*[ht‑1,xt]) (5)zt=σ(Wz*[ht‑1*rt,xt]) (6)nt=tanh(W*[rt*ht‑1,xt]) (7)ht=(1‑zt)*ht‑1+zt*nt (8)yt=σ(Wo*ht) (9)其中,公式(5)、公式(7)以及公式(8)与标准GRU中公式(2)、公式(3)以及公式(4)一致,参数说明不再赘述;不同的是更新门公式(6)与输出结果公式(9),zt表示t时刻更新门的输出;Wt表示输入数据和ht‑1与rt乘积之间的权重;yt表示t时刻OGRU神经网络的输出,即预测结果,Wo表示ht的权重;训练OGRU神经网络的目标是使得网络的预测输出yt+1和实际的输出
相等,定义网络的损失函数如公式(10)所示:
通过梯度下降法最小化损失函数L可以训练出OGRU网络中的权值和偏置,得到预测模型;步骤三:获取数据集采用步骤一同样的方法进行数据预处理过程,然后输入步骤二所获得的OGRU预测模型进行模型预测,得到预测结果;获取t时刻数据集的输入数据Dt,以及最近一次时间以前的状态数据Dt‑1,Dt‑2,...,Dt‑N;利用步骤一中方法,对Dt,Dt‑1,Dt‑2,...,Dt‑N进行数据的预处理;将经过预处理过的Dt,Dt‑1,Dt‑2,...,Dt‑N数据输入到步骤二所获得的OGRU预测模型中,获取预测结果进行反归一化后,得到t时刻神经网络预测结果即输出结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811017375.3/,转载请声明来源钻瓜专利网。