[发明专利]基于局部感知递归神经网络的字符级语言模型预测方法在审
申请号: | 201810398231.0 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108629401A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 刘惠义;王刚;陶颖 | 申请(专利权)人: | 河海大学 |
主分类号: | G06N3/02 | 分类号: | G06N3/02;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 211106 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 递归神经网络 语言模型 感知 动量 自适应学习 层次组合 反向传播 方法使用 快速收敛 三层网络 数据序列 随机梯度 信息综合 优化训练 语义特征 测试集 再使用 预测 算法 文本 优化 监督 学习 | ||
本发明公开一种基于局部感知递归神经网络的字符级语言模型预测方法,使用递归神经网络的处理形式,将三层网络按层次组合在一起,低层次获取局部字符间的特征,高层次获取文本的语义特征,从而使新模型具有更强的信息综合能力,且更容易处理较长的数据序列。该方法使用BPTT‑RNN(递归神经网络反向传播算法)有监督的方法训练;首先使用adadelta(自适应学习率调整)优化训练至测试集BPC低于1.45,使之快速收敛,再使用学习速率0.0001、动量为0.9的SGD(随机梯度下降)优化方法训练,以获得较好的测试结果。
技术领域
本发明属于自然语言处理领域,具体是一种基于局部感知递归神经网络的字符级语言模型预测方法。
背景技术
递归神经网络是一种极具表达能力的动态模型,因为RNN有高维度隐藏的非线性内部状态,使得它能够从先前处理过的信息中抽取先验的依赖信息。理论上,一个隐藏状态足够大的RNN能够生成任意复杂度的序列,并且已经证明在给定任意数量隐藏神经元的情形下RNN是图灵完备的;但实际上,标准的RNN不能存储较长的已有输入序列信息,所以尽管RNN的能力对人们很具有吸引力,但内部隐藏状态经过多次递归处理后变得不稳定,梯度极易消失或膨胀。这使得图灵完备的RNN的应用受到限制。
2011年Sutskever等人采用RNN的一个变种来训练字符级语言模型,并取得当时最好的性能,此后Graves通过大量的实验表明了递归神经网络强大的序列结构信息捕获能力;2015年Mikolov分别使用前向神经网络、最大信息熵、n-gram在单词级别和字符级别给出效果对比。许多研究成果表明,与传统的前向神经网络模型或概率模型相比,递归神经网络更适合处理数据序列窗口较宽的字符级神经网络语言模型。
然而,传统的多层递归神经网络各层的形式类似,功能类同,这使得每层递归神经网络的职能难以划分,也不容易确定需要要的分层数量及各层的神经元数量;且当数据输入传统多层递归神经网络时,每个time step,数据单纯由底层神经网络向上一层神经网络传输,数据信息流入方式单一,难以处理较长的数据序列。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种基于局部感知递归神经网络(LA-RNN)的字符级语言模型预测方法,通过将三层类似递归神经网络(RNN)的网络结构按一定层次组合在一起,由低层到高层使每一层负责不同层次的信息处理,从而使新模型具有更强的信息综合能力,从而使得模型更容易处理较长的数据序列。
为实现上述目的,本发明采用的技术方案是:一种基于局部感知递归神经网络的字符级语言模型预测方法,包括以下步骤:
步骤A,数据预处理,将PTB数据分为训练、验证和测试三种数据集,对所述三种数据集包含的所有字符按ASCII码进行排序,再将所述数据集的字符向前错位1步位置,按索引表示生成目标集;
步骤B,神经网络构建,所述局部感知递归神经网络包括依次非线性连接的a隐藏层、b隐藏层及h隐藏层;所述局部感知递归神经网络后面依次连接神经元数量为102的全连接层、ReLU层、神经元数量为102的全连接层、ReLU层、神经元数量为51的全连接层以及SoftMax回归层;
步骤C,神经网络训练,首先使用adadelta优化训练至测试集BPC低于1.45,再使用学习速率0.0001、动量为0.9的SGD优化方法训练,如果训练时在测试集上的BPC值连续两次没有下降,则学习速率减半;
通过训练数据的前向传播计算每个节点的值,通过与目标期望值的比较,计算出损失函数,然后进行误差的反向传播,由输出层开始逐层计算各层神经元的输出误差,使用所述步骤C中的方法训练神经网络,得到最终模型训练结果,根据误差梯度下降法来调节各层的权值和阈值,使修改后的网络最终输出接近期望值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810398231.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Levy搜索的混沌人工蜂群算法
- 下一篇:用于图像处理的方法和装置