[发明专利]修正线性深度自编码网络语音识别方法在审
申请号: | 201611195535.4 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106782511A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 黄丽霞;张雪英;孙颖;娄英丹 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02 |
代理公司: | 太原倍智知识产权代理事务所(普通合伙)14111 | 代理人: | 戎文华 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 修正 线性 深度 编码 网络 语音 识别 方法 | ||
技术领域
本发明涉及一种应用建立深度学习网络模型对语音进行识别的方法,属于语音信号处理领域,具体涉及一种修正线性深度自编码网络语音识别方法。
背景技术
由于传统语音识别方法的理论假设和实际情况相比存在较大差异,导致在现实应用中难以达到预期性能,亟待在理论取得突破。深度学习是当前针对大数据的重要机器学习理论,在语音、图像、文本等领域有广泛的应用。目前,深度学习算法在语音识别方面已有一定的发展,它模拟了人类神经元活动原理,具有自学习、联想、对比、推理和概括能力,为解决语音识别这样的一个复杂的模式识别问题提供了新的途径。但是,随着模型深度增加,训练难度也在逐渐加大,如何找到一种快速有效的训练算法,是目前研究中需要克服的难题。
目前针对建立深度学习语音识别声学模型的最常用方法是使用受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)作为基本单元,通过无监督逐层贪婪训练算法和对比散度算法,建立深度置信网络(Deep Belief Network,DBN)声学模型,例如文献“A fast learning algorithm for deep belief nets”(Neural Computation, 2006, 18(7))中所提到。这种方法解决传统BP算法训练多层神经网络需要大量的含标号训练样本集、较慢的收敛速度、以及因不合适的参数选择而陷入局部最优的难题。
在文献“Context Dependent Pre-Trained Deep Neural Networks for Large Vocabulary Speech Recognition”(IEEE Transactions on Audio Speech and Language Processing, 2012, 20(1))中,微软研究人员进一步使用深度信念网络对数以千计的senones(一种比音素小很多的建模单元)直接建模,提出了第1个成功应用于大词汇量语音识别系统的上下文相关的深层神经网络-隐马尔可夫混合模型(Context-Dependent Deep Neural Network Hidden Markov Model,CD-DNN-HMM)。
虽然深度学习语音识别的方法一直在不断改进,但无论哪种方法在噪声环境下识别性能的急剧下降仍是一个重大难题,这极大制约着自动语音识别技术在实际中的应用。另外,深度模型训练时容易产生的“梯度消失”和过拟合等问题也始终影响着系统的性能表现。
发明内容
本发明要解决的具体技术问题是:如何在噪声环境下,建立深度学习语音识别系统方法,并取得良好的抗噪性能。
为了优化深度模型的训练算法,提出基于L2正则化的修正线性深度自编码网络(Rectified Deep Auto-encoder,RDAE)模型构建方法;首先采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练,其次引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题,最后通过无监督的“预训练”(pre-training)和有监督的“微调”(fine-tuning)得到一组具有特征表示的权值,从而对测试语音完成识别任务。
本发明的具体技术方案为:建立基于L2正则化的修正线性深度自编码网络模型构建方法,在训练时首先进行无监督学习,称为网络“预训练”,然后将预训练得到的参数当作有监督学习的初始值再进行有监督训练,最后通过反向传播算法调整所有层的参数,称为网络“微调”;具体步骤如下:
1)语音数据预处理:
11)对语音信号进行采样和量化,采样率为,帧长256采样点,帧移128采样点;
12)对步骤11)所得到的语音信号进行预处理,包括预加重、分帧、加窗以及归一化处理;
13)将步骤12)所得的单帧信号进行端点检测,获得有效的单帧信号;
2)提取声学特征:
21)将步骤13)所得的有效单帧信号进行快速傅里叶变换,得到语音信号的频域信号。
22)使用对应的滤波器组对步骤21)所得的频域信号进行滤波处理;
23)对22)所得的滤波信号进行一系列非线性变换得到语音的声学特征;
3)训练修正线性深度自编码网的步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611195535.4/2.html,转载请声明来源钻瓜专利网。