[发明专利]一种基于Maxout神经元的深度双向LSTM声学模型有效
申请号: | 201710702440.5 | 申请日: | 2017-08-16 |
公开(公告)号: | CN107301864B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 罗元;刘宇;张毅 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/14;G10L15/06 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 maxout 神经元 深度 双向 lstm 声学 模型 | ||
1.一种基于Maxout神经元的深度双向LSTM声学模型,其特征在于,该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分;
所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层,DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y=(y1,y2,...,yt,...,yT),该网络的迭代过程如下:
by表示输出层的偏置向量,yt表示输出值,H表示输出层的激活函数,表示LSTM中的权值矩阵,表示前向隐含层的偏置向量,表示后向隐含层的偏置向量;
所述DBLSTM深度双向长短时记忆递归神经网络计算方法为:
首先,对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即
ht=H(Wxhxt+Whhht-1+bh)
yt=Whyht+by
其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数,Wxh表示输如层和隐含层之间的权值矩阵,Whh表示隐含层与隐含层之间的权值矩阵,Why表示隐含层和输入层之间的权值矩阵;
LSTM单元中,激活函数H通过下列公式实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
ht=ottanh(ct)
其中,σ为标准sigmoid函数;i、f、o和c分别为输入门、遗忘门、输出门和内存单元;bi、bf、bo和bc分别为输入门、遗忘门、输出门和内存单元的偏置向量;W为各单元与门矢量之间的权值矩阵,如Wxi为网络输入和输入门之间的权重矩阵;
所述选择连接层的计算方法为:
yt表示输出值
该层是将DBLSTM最后一层BLSTM隐含层输出的两个矢量数据按照上述公式进行加权求和,最终得到一个矢量作为全连接层的输入信号;
所述全连接层中Dropout正则化训练算法计算方法为:
Dropout正则化在训练阶段和测试阶段分别采用不同的正则化方法:
1)SGD训练阶段:将二值掩膜ml应用于原始激活单元,从而获得Maxout神经元输出值:
hl=ml⊙θ(WlThl-1+bl)
其中,θ代表神经元进行的非线性变换,⊙是向量的乘积,二值掩膜ml服从伯努利分布(1-r),r称为Dropout率;
2)测试阶段:不需要省略激活神经元,但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710702440.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种聋哑儿童言语障碍康复方法及康复训练系统
- 下一篇:一种语音重启控制系统