[发明专利]一种基于Maxout神经元的深度双向LSTM声学模型有效
申请号: | 201710702440.5 | 申请日: | 2017-08-16 |
公开(公告)号: | CN107301864B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 罗元;刘宇;张毅 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/14;G10L15/06 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 maxout 神经元 深度 双向 lstm 声学 模型 | ||
本发明请求保护一种基于深度双向长短时记忆(DBLSTM)递归神经网络(RNN)的声学模型,DBLSTM网络主要分为三部分:在DBLSTM的全连接部分,使用Maxout神经元代替原来的Sigmoid神经元来解决RNN中常出现的梯度消失和爆炸的问题;同时使用Dropout正则化训练算法避免了神经网络在训练过程中出现过拟合。在多层BLSTM部分,为适应DBLSTM对每个时间步长的双向依赖性,提出了上下文敏感块的随时间反向传播(CSC‑BPTT)算法来训练该网络。在多层BLSTM部分之后采用一层选择连接层,用于对DBLSTM的输出进行变换得到全连接部分的输入。本发明可得到更高的语音识别率。
技术领域
本发明属于人工智能语音识别领域,主要涉及深度神经网络在语音声学模型中的应用。
背景技术
深度神经网络(Deep neural network,DNN)的研究与应用极大的推动了自动语音识别(Automatic speech recognition,ASR)技术的发展。在大词汇量连续语音识别(Largevocabulary continuous speech recognition,LVCSR)系统中,相比于传统的高斯混合模型-隐马尔科夫模型(Gaussian mixture models-hidden markov models,GMM-HMM)声学模型,基于DNN的声学模型表现出更好的优势。Seide F等人将基于DNN-HMM声学模型用于Switchboard电话转录任务,其字错误率(Word error rate,WER)相对下降了33%。DNN-HMM声学模型的研究和扩展给ASR技术带来了前所未有的发展。
以前的研究主要集中在用于处理固定长度输入窗的上下文声学特征的前馈神经网络上。然而实际的语音信号具有动态特性,DNN不能很好地表征语音帧之间的长时依赖特性。所以,像循环神经网络(Recurrent neural network,RNN)这样的更强大的序列信号模型再次引起了研究者的关注。最近,RNN在提高语音识别率上的性能优越性已得到证明,RNN的隐含层中具有循环结构,可捕获到更长的时间动态特性。但是标准的RNN仍然受限于梯度消失和爆炸问题,因此提出长短时记忆(Long short-term memory,LSTM)RNN模型,该模型中的输入信号、循环信号和输出信号都由门信号控制,在一定程度上克服了这些问题。Graves A等人建立了基于LSTM RNN的语音识别系统,在TIMIT音素识别任务中取得了很好的成果。Sak H等人将混合深度LSTM-HMM语音识别系统通过帧级交叉熵(Cross entropy,CE)训练和序列级鉴别训练获得更好的识别结果。此后,研究了许多LSTM网络的变体,并针对多种ASR任务进行了有效的实验验证。Jaitly N等人提出深度双向长短时记忆-隐马尔科夫模型(Deep bidirectional long short term memory-hidden markov models,DBLSTM-HMM)声学模型,并在TIMIT和WSJ语料库中验证了其识别性能。Chen K等人提出在LVCSR中使用上下文敏感块-随时间反向传播(Context-sensitive-chunk Back-propagationthrough time,CSC-BPTT)算法来训练DBLSTM声学模型。DBLSTM能够在模型内部存储某一帧的前后语音信息,训练被分类帧两侧的上下文声学特征。
在神经网络训练阶段,LSTM可以通过标准RNN的基于梯度的算法进行训练,如实时循环学习(Real-time recurrent learning,RTRL)、随时间反向传播(Back-propagationthrough time,BPTT)以及其多种变体。但是,由于DBLSTM在每个时间步长上的双向依赖性,上述的训练算法不能直接应用于DBLSTM训练。因为在LVCSR中,DBLSTM不适合于低延迟识别,可能会导致整个语音识别的延迟。Chen K等人提出一种CSC-HMM训练算法,它将每个序列分解为多个具有上下文敏感的组块,并行处理这些组块,这样只是在一小段语音中延迟,而不是整个语句。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710702440.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种聋哑儿童言语障碍康复方法及康复训练系统
- 下一篇:一种语音重启控制系统