[发明专利]一种发音稳定段辅助的语音识别优化解码方法及装置有效
申请号: | 201210514763.9 | 申请日: | 2012-12-04 |
公开(公告)号: | CN103021408A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 刘文举;杨占磊 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L19/02 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。 | ||
搜索关键词: | 一种 发音 稳定 辅助 语音 识别 优化 解码 方法 装置 | ||
【主权项】:
一种基于发音稳定段的语音识别解码方法,包括下列步骤:步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;步骤三、对任一跳变点p,设定一时长r,定义跳变点p附近的[p‑r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域;步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210514763.9/,转载请声明来源钻瓜专利网。