[发明专利]一种应用于英语口语网络机考系统的语音识别装置无效
申请号: | 201110268976.3 | 申请日: | 2011-09-13 |
公开(公告)号: | CN102436815A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | 刘健刚;李霄翔;储琢佳;董静;魏昕;唐加能;赵力;张萍;李鲁 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L19/02;G10L15/06 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 朱戈胜 |
地址: | 211189 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 英语口语 网络 系统 语音 识别 装置 | ||
1.一种用于英语口语网络机考的语音识别装置,其特征在于,包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块;语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端;
在程序存储器里存放提示语音,在数据存储器里存放所有的码本及采样的语音数据,
所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块;由特征提取子模块和训练子模块完成训练流程,由特征提取子模块和识别子模块完成识别流程;
特征提取子模块对输入的语音提取相应的特征参数,步骤包括先对语音进行预加重,再加窗分帧,然后对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数;
对于训练流程,训练子模块对语音的特征参数,通过改进的矢量量化的训练算法,生成后续识别时需要用到的码本;
对于识别流程,识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离,选出距离最小的码本所在的类作为识别结果输出。
2.根据权利要求1所述的装置,其特征是所述改进的矢量量化的训练算法,步骤包括:
首先用分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集;在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化;如此反复M次可产生含2M个矢量的码本,所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定,取值范围为M=2~10。
3.根据权利要求1所述的装置,其特征是特征提取子模块对输入语音信号提取其相关的特征参数,过程为:将语音信号经过采样,1-aZ-1的预加重,并且通过加窗将其分为一帧一帧的语音;
对每一帧语音sn,首先进行线性预测分析,通过Levinson-Durbin算法求出其p阶的线性预测系数LPC a1,a2,...,ap;
接着,由LPC通过递推,获得倒谱系数c1,c2,...,cp,递推公式如下:
c1=a1
把倒谱系数进一步按人耳的听觉特性变换,得到如下所示的MEL倒谱参数:
其中,式(1)中的ck和式(2)中为cn表示倒谱系数,MCk表示美尔倒谱系数,n为迭代次数,k为MEL倒谱阶数,取n=k;迭代是从高往低,即n从大到0取值,最后求得的MEL倒谱系数放在MC0(0),MC1(0),...,MCp(0)中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110268976.3/1.html,转载请声明来源钻瓜专利网。