[发明专利]一种应用到端到端语音识别的CLDNN结构的建立方法有效
| 申请号: | 201910115486.6 | 申请日: | 2019-02-14 |
| 公开(公告)号: | CN109767759B | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 冯昱劼;张毅;徐轩 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G06N3/08;G06N3/04 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用到 端到端 语音 识别 cldnn 结构 建立 方法 | ||
本发明请求保护一种基于改进型CLDNN结构的端到端语音识别方法,常用于语音识别的传统CLDNN结构采用全连接LSTM(Long Short Term Memory)模型处理语音信号中的时序信息,在训练过程中易发生过拟合现象,影响学习效果。更深的模型往往表现更为优秀,但通过简单堆叠网络层增加模型深度会发生梯度消失、梯度爆炸和“退化”问题。针对以上现象及问题,本发明提出一种改进型CLDNN结构,采用残差网络和ConvLSTM结合方式建立残差ConvLSTM模型,并以此代替传统CLDNN结构中的全连接LSTM模型。该模型结构改善了传统CLDNN模型存在的问题,并且可以通过堆叠残差ConvLSTM块增加模型深度而不发生梯度消失、梯度爆炸和“退化”问题,使语音识别系统性能更优。
技术领域
本发明属于语音识别领域,特别是一种基于一种应用到端到端语音识别的CLDNN结构的建立方法。
背景技术
自动语音识别技术一直在人工智能领域有着举足轻重的地位。以HMM-GMM模型为代表的传统语音识别技术曾一直作为主流,统治了语音识别领域长达数十年。近年来,得益于深度学习的突破,自动语音识别技术也处于飞速发展的阶段。目前,以深度学习为基础的端到端语音识别系统在在学术界中的流行程度上已经超越了传统语音识别系统,并且开始逐步代替传统语音识别系统运用于实际生产。
从20世纪80年代开始,基于混合高斯模型/隐马尔可夫模型(Gaussian MixtureModel/Hidden Markov Model,GMM/HMM)的声学模型就被广泛应用,HMM用于处理语音在时序上的变化,GMM用于完成声学输入到隐马尔科夫状态间的映射。近几年,基于深度神经网络(Deep Neural Network,DNN)的声学模型被证实在大词汇量的语音识别任务中拥有更好的表现,大量神经元的活动在模拟声学特征上表现更为优秀。由于DNN完全链接的性质,导致其不能充分利用语音特征空间中的结构局部性。而卷积神经网络(ConvolutionalNerual Network,CNN)可以利用其平移不变性来克服语音信号本身的多样性,并且可以很好地解释语音特征空间中的变化。递归神经网络(Recurrent Neural Network,RNN)通过递归来挖掘序列中的上下文相关信息,在一定程度上克服了DNN的缺点。但是RNN在训练中很容易出现梯度消失的问题,且难以记忆长时信息。长短期记忆单元(Long Short-TermMemory,LSTM)通过特定的门控单元使得当前时刻的误差能够保存下来并选择性传给特定的单元,从而避免了梯度消失的问题。连接时序分类算法(Connectionist TemporalClassifier,CTC)由Grave等在2006年提出,可应用于端到端语音识别系统,刻画语音特征序列和音素序列的关联性,并且不必依赖人工对齐特征与音素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910115486.6/2.html,转载请声明来源钻瓜专利网。





