[发明专利]一种组合PCA和RBM的孤立数字语音识别分类系统及方法有效

申请号：	201510514595.7	申请日：	2015-08-20
公开（公告）号：	CN105206270B	公开（公告）日：	2019-04-02
发明（设计）人：	宋青松;田正鑫;安毅生;赵祥模	申请（专利权）人：	长安大学
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/08
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	徐文权
地址：	710064 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种组合 pca rbm 孤立数字语音识别分类系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种组合PCA和RBM的孤立数字语音识别分类系统及方法，首先，采用梅尔频率倒谱系数(MFCC)与一阶差分MFCC相组合，初步抽取孤立数字的语音动态特征；然后采用主成分分析(PCA)对MFCC组合特征作线性降维处理，并统一新得到的特征的维数；进而，采用受限波尔兹曼机(RBM)对所得新特征作非线性降维处理；最后，采用Softmax分类器对非线性降维后的数字语音特征完成识别分类。本发明采用PCA线性降维、统一特征的维数与RBM非线性降维相结合，大大改善了模型的特征表征与分类能力，提高了孤立数字语音识别正确率，为实现孤立数字语音高准确率识别提供了一种高效的解决方案。

技术领域

本发明属于语音识别领域，具体涉及一种组合PCA和RBM的孤立数字语音识别分类系统及方法。

背景技术

数字语音识别有着广阔的研究和应用价值，常见方法有很多，比如动态时间规整(DTW)、主成分分析(PCA)、人工神经网络(ANN)方法等。DTW基于动态规划的思想，解决了发音长短不一的模板匹配问题，但是，DTW存在运算量大、识别性能依赖端点检测等不足。PCA可以实现数据的降维，并且能够统一数据维数，但本质上是一种基于最优正交变换的线性降维方法，无法保留原始数据中的非线性特征，对于非线性问题难得到较好的结果。ANN方法特别是Hinton等提出的受限波尔兹曼机(RBM)及其快速学习算法，在模式识别与分类问题中表现出良好的非线性特征降维与特征表征能力，但通常需要适当的特征参数提取等预处理手段配合使用。每种方法有各自的长处，单一种类的方法很难发挥综合优势。

发明内容

本发明的目的在于提供一种组合PCA和RBM的孤立数字语音识别分类系统及方法，以克服上述现有技术存在的缺陷，本发明能够对数字语音信号进行有效降维和特征表征，显著改善了分类识别正确率，为高精度孤立数字语音识别提供了一种高效的解决方案。

为达到上述目的，本发明采用如下技术方案：

一种组合PCA和RBM的孤立数字语音识别分类系统，包括：孤立数字语音输入模块，用于对孤立数字的语音信号进行采样或读取；MFCC与一阶差分MFCC特征提取模块，用于提取语音信号的梅尔频率倒谱系数MFCC与一阶差分MFCC；PCA线性降维模块，用于将MFCC特征参数通过主成分分析PCA进行线性降维，并且使降维后得到的特征维数得到统一；RBM非线性降维模块，采用受限波尔兹曼机RBM对PCA线性降维后得到的特征进行非线性特征降维表征；Softmax分类识别模块，用于对RBM非线性降维模块输出的结果进行分类识别。

进一步地，MFCC与一阶差分MFCC特征提取模块包括：预加重与分帧加窗模块，用于将原始语音信号S₀通过预加重、分帧、加窗处理得到成帧的语音信号S_f；端点检测模块，用于从成帧的语音信号S_f中截取实际有效的语音信号S_e；FFT模块，对每一帧有效地的语音信号S_e进行离散FFT变换得到该帧的频谱，进而对该频谱取模的平方求得该帧的离散功率谱S(n)；梅尔频率滤波器组模块，将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器H_m(n)的MEL滤波器组得到MEL频谱；Log对数能量模块，将得到的MEL频谱取对数能量得到对数能量谱，再经MEL滤波器组输出；DCT求倒谱模块，将对数能量谱经过离散余弦变换到倒谱域即得到MEL频率倒谱系数D_m，m＝0,1...M-1，舍去代表直流成份的D₀，取D₁,D₂…D_g作为MFCC特征参数值，其中M取24，g取12。

一种组合PCA和RBM的孤立数字语音识别分类方法，包括以下步骤：

步骤1：输入孤立数字语音信号；

步骤2：提取孤立数字语音信号的梅尔频率倒谱系数MFCC，然后计算一阶差分倒谱系数，并与梅尔频率倒谱系数MFCC进行组合得到MFCC组合特征参数；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于长安大学，未经长安大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510514595.7/2.html，转载请声明来源钻瓜专利网。

上一篇：基于分布式麦克风阵列网络的语音增强方法
下一篇：一种语音转换方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种组合PCA和RBM的孤立数字语音识别分类系统及方法有效

专利文献下载