[发明专利]一种用于鲁棒语音识别的语音特征提取方法有效

专利信息
申请号: 201210449436.X 申请日: 2012-11-12
公开(公告)号: CN102982801A 公开(公告)日: 2013-03-20
发明(设计)人: 徐波;范利春;柯登峰;孟猛 申请(专利权)人: 中国科学院自动化研究所
主分类号: G10L15/02 分类号: G10L15/02;G10L15/20;G10L21/0208
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 宋焰琴
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 语音 识别 特征 提取 方法
【说明书】:

技术领域

发明涉及语音识别领域,尤其涉及一种在语音识别中,能够对平稳和非平稳噪声有明显抑制作用的语音特征提取算法方法。

背景技术

语音识别系统在复杂环境下识别性能急剧降低是语音识别中最重要的问题之一。例如在马路上手机语音查询地理位置,用户所处的声学环境非常复杂且变化迅速,这对语音识别系统的性能产生了极大的影响。原有的语音识别系统在没有噪声的环境下能取得很好的处理和识别效果,但在现实应用中识别系统的性能会由于时变的不可预测的环境噪音和信道的影响,说话人的差异,谈话内容的变化等因素影响严重下降。所以如何提高语音识别系统在训练和测试环境的不匹配条件下的鲁棒性成为语音识别技术的关键。

近年来,在语音识别技术环境鲁棒性这一研究领域人们提出了很多改进技术和算法,并取得了一定的效果。根据语音识别的流程,鲁棒语音识别可以分为四类:时频域的抗噪;特征域的噪声补偿;模型域的噪声自适应和解码域的自适应。最早的技术是时频域的抗噪,例如谱减和维纳滤波,还有经典的欧洲电信标准协会的两阶段维纳滤波。特征层面噪声抑制通常是在提取特征的过程中对噪声进行补偿。由于PLP和MFCC特征一直占据鳌头,所以特征层面的噪声抑制大多是在这两种特征上进行的,例如向量泰勒级数等。第三个阶段是在模型方面对噪声进行自适应,包括多状态的语音模型、共享变量参数的HMM等。第四个层面是在解码层面的噪声自适应,包括不确定性解码和用子带重估来代替不确定性解码等。

所有的这些方法从根本上来说都是寻求在某种准则下训练环境和测试环境之间不匹配的一种最佳补偿。在一系列假设前提条件,如加性噪音的高斯分布、噪音与语音信号的独立性、不同噪音之间的独立性、信道的渐变特性等等,这些方法对于语音识别技术的鲁棒性都作出了有益的探索和贡献,尤其在平稳噪声环境下有较好的噪声抑制效果。但这与在真实噪音环境下语音识别系统的应用要求还有很大的差距,因此对于更加复杂的环境,比如突发噪声等环境却无能为力。

发明内容

(一)要解决的技术问题

为了解决上述的在复杂环境下的语音识别率低,而普通的特征提取方法对非平稳噪声的抑制能力不够强的缺点,本发明提出一种能够提高其识别率的特征提取方法,目的在于提高带有突发噪声和音乐噪声等加性噪声影响的语音的识别率,并且使纯净环境下的语音识别率不下降。

(二)技术方案

本发明所基于的一种用于鲁棒语音识别的语音特征提取方法,包括以下步骤来实现:

步骤1、获取语音信号的功率谱;

步骤2、将所获得的功率谱通过滤波器组处理,获得含噪语音的短时功率谱;

步骤3、根据所获得的含噪语音的短时功率谱,采用帧平均的方式求取含噪语音的中等时长功率谱;

步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪,以得到纯净语音的中等时长功率谱;

步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱;

步骤6、对纯净语音的短时功率谱进行能量归一化处理,以消除乘性噪音;

步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重;

步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作;

步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换,以求取倒谱系数,对倒谱系数进行均值归一化处理,最终得到语音特征。

本发明从传统的语音特征提取方法入手,针对传统语音特征抗噪能力弱的缺点,提出了若干手段改进语音特征,最终形成一套新的语音特征提取方法。本发明针对噪声变化比语音慢的特点,利用帧平均的方式将短时功率谱转换为中等时长的功率谱,用于估计噪声;利用不对称滤波的方式,分别估计含噪语音中噪声和语音的频谱包络;在不对称滤波的基础上采用掩蔽的方式估计信噪比,并对其进行处理,将其转换为短时功率谱的信噪比进行抗噪;还通过能量归一化和指数非线性对功率谱进行处理。本发明提出的用于鲁棒语音识别的语音特征提取方法不仅能够对噪声进行更加准确的估计,也能使语音特征更加符合人耳的听觉特性。因此这种特征提取方法所求取的特征对噪声有很好的抑制作用。

(三)有益效果

本发明从传统的语音特征提取方法入手,在传统的语音特征提取方法中加入了抗噪处理和符合人耳听觉的变换处理,使得这种特征提取方法不仅能够拟制各种加性噪声,并且在纯净环境下的识别率也高于传统的语音特征提取方法。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210449436.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top