[发明专利]一种基于双层声学模型的快速语音识别方法在审
申请号: | 202011095528.3 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112233659A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/26;G10L19/00;G10L25/24 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双层 声学 模型 快速 语音 识别 方法 | ||
本发明公开一种基于双层声学模型的快速语音识别方法,在训练阶段用共振峰聚类方法将语音识别系统的全部音节划分为若干类,为语音识别系统同时配置类声学模型和音节声学模型;在识别阶段,先对测试语音进行类识别,确定其类信息,再根据类信息对测试语音进行类内音节识别。本发明可以减小声学解码的计算量,节省手持设备的电能,延长其电池的使用时间。
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于双层声学模型的快速语音识别方法。
背景技术
在传统的语音识别系统中,需要在训练阶段为语音的每个音节建立声学模型;在识别阶段,用每个音节的声学模型计算当前语音特征参数的概率,并比较概率大小,以概率最大的声学模型对应的音节为识别结果。随着语音识别系统词汇量的增加,识别阶段的运算量也随之增加,这会影响语音识别在手持设备等运算性能较差的设备中的应用。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于低频音节识别的语音增强方法,解决了语音增强后语音音质差的问题。
技术方案:本发明提供一种基于双层声学模型的快速语音识别方法,包括训练阶段和识别阶段,其中,训练阶段包括:
(1)对训练语音文本进行预处理;
(2)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(3)用每一类的所有音节的训练语音进行模型训练,生成类声学模型;
(4)用每个音节的训练语音进行模型训练,生成该音节的声学模型;
识别阶段包括:
(5)对测试语音文本进行预处理;
(6)用类声学模型对当前测试语音的特征向量进行类解码,将其归为某一类语音;
(7)根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
进一步的,包括:
所述步骤(1)中对训练语音文本进行预处理包括加窗,分帧和提取美尔频率倒谱系数,作为语音的特征向量。
设一帧语音信号的幅度谱为X(k),则美尔频率倒谱系数对应向量c的第l个元素可以表示为
其中,N0是帧长;M0是Mel滤波器组中滤波器的个数;Wm(k)是Mel滤波器组中第m个滤波器在频率k处的加权因子;L是MFCC向量c的维数。
进一步的,包括:
所述步骤(2)包括:
首先对每个音节的训练语音提取共振峰,并取平均值,得到该音节的共振峰向量;然后,对全部音节的共振峰向量进行聚类,将N个音节划分为M类,每一类的音节个数分别为N1,N2,…,NM,它们满足:
进一步的,包括:
所述步骤(3)中,对每一类音节,用这些音节的全部训练语音训练生成该类的高斯混合模型,第m类的高斯混合模型的输出概率可以表示为
其中,xt表示第t帧语音的MFCC向量;cmk、μx,mk和Σx,mk分别表示第m类的GMM中第k个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示MFCC向量的维数;Nm表示第m类的GMM的高斯混合数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011095528.3/2.html,转载请声明来源钻瓜专利网。