[发明专利]一种发音稳定段辅助的语音识别优化解码方法及装置有效

申请号：	201210514763.9	申请日：	2012-12-04
公开（公告）号：	CN103021408A	公开（公告）日：	2013-04-03
发明（设计）人：	刘文举;杨占磊	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/14	分类号：	G10L15/14;G10L19/02
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题，本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式，达到降低解码复杂度的目的。本发明的方案包括下列步骤：对语音信号计算语谱图；计算语音信号的分频带能量及其变化率；定位语音信号中能量发生跳变的时间点；获取语音的发音稳定段；根据解码过程中路径扩展发生的位置，将扩展划分为隐马尔科夫模型之间的扩展，以及隐马尔科夫模型内部各状态间的扩展两类；跟踪语音识别解码过程，定位隐马尔科夫模型之间的扩展；在发音稳定段，删除原解码框架下的隐马尔科夫模型之间的扩展，只允许路径在隐马尔科夫模型内部各状态间进行扩展。
搜索关键词：	一种发音稳定辅助语音识别优化解码方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于发音稳定段的语音识别解码方法，包括下列步骤：步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布，计算获得语音信号的分频带能量曲线，以及分频带能量随时间的变化率曲线；步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线，确定语音信号能量发生跳变的跳变点；步骤三、对任一跳变点p，设定一时长r，定义跳变点p附近的[p‑r，p+r]区域为语音信号的非平稳段区域，未被划定为非平稳段区域的部分为发音稳定段区域；步骤四、在语音识别解码过程中，若当前帧在所述发音稳定段区域，且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展，则不执行该路径的扩展，否则执行该路径的扩展；其中根据路径的扩展在隐马尔科夫模型中发生的位置，所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展，以及隐马尔科夫模型的内部扩展两类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210514763.9/，转载请声明来源钻瓜专利网。

上一篇：臭氧及生物巢处理技术联合处理难降解废水设备
下一篇：一种分体组合式中间包包盖及其制作方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种发音稳定段辅助的语音识别优化解码方法及装置有效

专利文献下载