[发明专利]在自动语音识别中应用声调特征的装置和方法有效
申请号: | 201210090660.4 | 申请日: | 2012-03-30 |
公开(公告)号: | CN103366737A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 丁沛;贺利强 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 语音 识别 应用 声调 特征 装置 方法 | ||
技术领域
本发明涉及自动语音识别(ASR),具体涉及一种在自动语音识别中应用声调特征的装置和方法。
背景技术
中文普通话等语言是一种带调语言,其每个音节的发音通常有五个不同的声调。声调反映了语音基频的变化,这是一种非常重要的鉴别信息。但是对于常见的语音识别系统,其使用的声学特征往往都忽略了声调,基频信息在特征提取中被丢弃,这对于带调语音识别系统,尤其是小词汇量语音识别(如中文数字串识别)而言是一种信息的浪费。除此之外,这样的语音识别系统也完全不能区分同音不同调的词对(如“陕西”和“山西”)。
为了提高诸如中文普通话等带调语言的语音识别系统的性能,基频特征会被提取出来,并和传统声学特征(如MFCC)合并使用。在用于语音识别的基频提取过程中有一个特殊问题,即为了保证基频特征的连续输出,如何对无声语音帧(如辅音)的基频赋值。因为在这些帧中,基频信息是根本不存在的。通常的办法是用随机数作为无声帧的基频特征。但是,直接使用随机值将会导致译码过程中出现异常的概率似然值,并最终降低识别性能。
除此之外,在基频特征提取的过程中,一些中间变量对提高识别性能是很有作用的,但实际应用中都被忽略了。
发明内容
针对现有技术中存在的上述问题,提出了本发明的解决方案。
在本发明的一个方面,提出了一种在自动语音识别中应用声调特征的装置,包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化(normalization)模块,被配置为根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整随机值,并将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。
根据本发明的实施例,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括:使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;以及使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。
根据本发明的实施例,所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括:使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
根据本发明的实施例,所述根据规整化的全局分布调整用于无声帧的随机值包括:对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
根据本发明的实施例,该装置还包括:帧区分模块,被配置为区分语音信号中的有声帧和无声帧;以及声调特征提取模块,被配置为提取有声帧的声调特征。
根据本发明的实施例,该装置还包括:特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征,以用于自动语音识别。
根据本发明的实施例,所述特征合并模块进一步被配置为:合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
根据本发明的实施例,所述语音层级参数反映了语音信号中的周期性的强弱。
在本发明的另一个方面,提出了一种在自动语音识别中应用声调特征的方法,包括:估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化;以及根据规整化的全局分布调整随机值,并将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。
根据本发明的实施例,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括:使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;以及使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。
根据本发明的实施例,所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括:使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
根据本发明的实施例,所述根据规整化的全局分布调整用于无声帧的随机值包括:对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
根据本发明的实施例,该方法还包括以下可选步骤:区分语音信号中的有声帧和无声帧;以及提取有声帧的声调特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210090660.4/2.html,转载请声明来源钻瓜专利网。