[发明专利]用于语音识别的高精度高分辨率基频提取方法有效
| 申请号: | 00124711.5 | 申请日: | 2000-09-13 |
| 公开(公告)号: | CN1151490C | 公开(公告)日: | 2004-05-26 |
| 发明(设计)人: | 徐波;张健 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02 |
| 代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 刘秀娟 |
| 地址: | 100080北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 用于语音识别的高精度高分辨率基频提取方法是一种将频域、时域分析以及动态规划(DP)相结合的基频提取方法。主要特点是:首先对语音信号在频域上进行FFT变换,再对其进行谐波分析,然后通过峰值检测,选若干个基频的候选,在时域上对这些候选基频用自相关系数评测,再用动态规划算法不定长回溯综合频域、时域的分析结果以及基频变化量确定一条最优的基频轮廓线。为保证基频提取的分辨率,采用了降采样率、插值等方法。 | ||
| 搜索关键词: | 用于 语音 识别 高精度 高分辨率 基频 提取 方法 | ||
【主权项】:
1.一种用于语音识别的高精度高分辨率基频提取方法,其特征在于,基频提取的步骤为:(1)信号分割,输入的语音信号首先被分割为若干帧,相邻两帧有一定的重叠;对每一帧依次按以下步骤处理:(2)过零率检测,计算平均过零次数,进行清浊音的粗略估计;过零次数高于给定的阈值被判定为非浊音帧,不进行基频提取;(3)降采样率,在保证不损失1250Hz以下对基频提取有意义的频率成分的前提下适当降低采样率;(4)预加重和加窗,采用的是hamming窗,公式为:
其中h(n)表示窗函数,N表示窗的长度;(5)FFT计算及求功率谱,采用的是多点的FFT(快速傅利叶变换),用公式计算功率谱: S(f)=|X(f)|2其中用X(f)表示信号的FFT变换,S(f)表示功率谱;(6)插值,在频谱的每两个FFT点值之间插Inpl_N个值,使用的是二次Spline(样条)插值方法;(7)计算谐波累加和,得到谐波累加谱,其计算公式为:H ( f ) = Σ n = 1 HN h n S ( nf ) ]]> 其中S(f)表示经过插值后的功率谱,HN表示谐波的最大个数,hn是第n个谐波的权值,H(f)表示频率f对应的谐波累加谱;(8)峰值检测,确定基频候选,从谐波累加谱中选若干个峰,求峰值点对应的基频作为基频候选,以及该峰值与最大峰的相对高度,即Hper;(9)对多个基频的候选在时域上求相应的自相关系数,即Rper;对于具有过低的Hper值或Rper值的基频候选被过滤掉,以减少下一步动态规划(DP)的运算量;(10)用动态规划(DP)算法求基频轨迹,用DP算法计算每条轨迹的得分;得分公式为Score(i)=max{Score(i-1)-D(i,j)}+aRper(i)+bHper(i)。根据得分,取得分前几名的几条轨迹记录下来;得分公式中Score(i)表示该基频路径在第i帧的得分,a,b分别为表示Rper(i)和Hper(i)权重的系数,D(i,j)表示第i帧的基频pi与第i-1帧的第j个基频候选pi的距离,其计算公式为:D(i,j)=2*|pi-pj|/(pi+pj)(11)处理完一段连续的浊音帧,则根据DP算法的得分以最优的基频轨迹作为提取的结果输出;否则返回第(2)步对下一帧做过零率检测;处理完全部的输入信号,进入归一化和连线;对一段处理完的语音,用平均基频进行归一化;连接是把没有基频的非浊音部分和具有基频的浊音部分进行平滑的连接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/00124711.5/,转载请声明来源钻瓜专利网。





