[发明专利]一种基于独立循环神经网络的语言模型建模方法有效
| 申请号: | 202010067852.8 | 申请日: | 2020-01-20 |
| 公开(公告)号: | CN111310892B | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 程春玲;朱涛;闵丽娟;王亚石;杨维荣 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G10L15/06;G10L15/16;G10L15/183;G10L15/26 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210009 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 独立 循环 神经网络 语言 模型 建模 方法 | ||
1.一种基于独立循环神经网络的语言模型建模方法,其特征在于,包括以下步骤:
步骤1)、获取训练数据集,并对训练数据集进行数据预处理;
步骤2)、以独立循环神经网络为基本单元构建网络结构;
步骤201)、以独立循环神经网络为基本单元,以单向层叠的方式建立网络结构,其中每层的各个神经元之间相互独立,它们的联系通过层与层之间的连接实现,第一层为输入层,输入为单词的one-hot向量;从第二层开始到倒数第二层为中间处理层,即隐藏层,隐藏层之间按全连接的方式互连,隐藏层的层内的神经元之间没有连接;最后一层为softmax输出层;每个神经元只从输入和上一时刻的隐态本身接收信息;不同神经元之间的相关性通过堆叠两层或多层网络得以实现;下一层中的每个神经元将处理前一层中所有神经元的输出;
步骤202)、对于第n个神经元,隐藏状态hn,t计算方式如下:
其中,hn,t表示隐藏状态,σ(·)表示激活函数,wn表示第n个神经元的输入权重,un表示第n个神经元的循环权重,表示哈达玛内积,xl,t表示第l层在时刻t的输入,来自于上一层的所有输出,hn,t-1表示当前隐态上一时刻的输出信息,bn表示第n个神经元的偏置;
步骤203)、由于在一个层中它们之间没有相互作用,对每个独立循环神经网络神经元可以独立地计算的梯度;对于第n个神经元隐藏状态hn,t,忽略偏置项b,在时间T内最小化的目标是Jn,则在时刻t的反向传播梯度为:
其中,σ'n,k+1表示激活函数的导数,有效梯度的范围为[ε,γ],ε表示最小的有效梯度值,γ表示不发生梯度爆炸时的最大梯度值,un应满足其中
步骤3)、对构建的网络结构使用IndDrop正则化;
步骤301)、在独立循环神经网络中每个神经元接收的信息仅来自于输入和上一时间步中神经元本身的隐藏状态;下一层中的每个神经元将处理前一层中所有神经元的输出;为了不影响时间信息对结果的影响,仅在层与层之间应用IndDrop正则化操作,保持各时间步之间的数据输入:
其中,D表示IndDrop操作;
具体做法为:dropout破坏单元所携带的信息,迫使他们更加鲁棒的进行中间计算;同时,不会删除神经元携带的所有信息,即神经元将会记住过去若干时间步的信息,只在下一层神经元接收前一层所有神经元的输出时进行dropout操作;
步骤4)、使用对数双线性模型计算softmax输出层的输出;
步骤401)、将每个单词用一个实值特征向量表示,用rw表示单词w的特征向量,R表示包含所有这些特征向量的矩阵;给定上下文w1:n-1,为了预测下一个单词wn,对数双线性模型将线性组合上下文单词特征向量来计算下一个单词的特征向量r*:
其中,Wi表示与上下文位置i相关联的权重矩阵;
步骤402)、使用内积计算词汇表中每个词的预测特征向量和特征向量之间的相似性;之后对相似性进行取幂和归一化,以获得下一个单词的分布:
其中,P(wn=w|w1:n)表示在给定历史词汇w1:n-1的情况下,当前单词wn出现的概率,r*T表示r*的转置,b’w表示单词w的偏置项,用于捕获与上下文无关的单词频率;
步骤5)、将训练完成的语言网络模型应用到语音识别中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010067852.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跨局域网络的通讯网关系统
- 下一篇:一种关于专色油墨的命名方式





