[发明专利]语音基音频率检测方法和装置有效
申请号: | 201210427486.8 | 申请日: | 2012-10-31 |
公开(公告)号: | CN103794222B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 吴晟;林福辉;徐晶明;蒋斌 | 申请(专利权)人: | 展讯通信(上海)有限公司 |
主分类号: | G10L25/90 | 分类号: | G10L25/90 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 刘剑波 |
地址: | 201203 上海市浦东新区张*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 基音 频率 检测 方法 装置 | ||
技术领域
本发明涉及通信领域,特别是涉及一种语音基音频率检测方法和装置。
背景技术
人类语音由清音和浊音构成。清音是气流通过口径缩小的声门,气流高速冲过产生湍流引起的摩擦音,这种音在语音中占的比例较少,发声时声带不振动,因此没有周期性,类似于宽带噪音;浊音呼气使声带靠拢发声颤动时发出的具有周期性的声音,这种声音在频率构成上由一个基音和一系列谐音构成,基音的频率就是声音周期的倒数。音频频率在语音信号处理中是最基本的参数之一,它在语音信号的分析、合成、编码、识别等各项应用中起着非常重要的作用。
在语音的基音频率检测方面,已经有很多相关研究成果,这些成果大多基于相关性的检测,即通过时域、频域或者信号的预测残差的自相关函数来得到相关性峰值所在的延迟采样数或者离散频率数。基于自相关的方法有以下几个缺陷,首先是自相关的计算量较大;其次检测出的周期采样数是整数,其对应的频率便是一组离散数,精度不足,这在基音频率较高时问题突出;三,自相关函数的峰值判断困难,多数情况下会有多个峰对应着基频、谐频或干扰噪声,这常常导致基频判断错误。
发明内容
本发明要解决的技术问题是提供一种语音基音频率检测方法和装置。通过利用具有较大能量的单调分量作为基音检测的基础,能够提高基音检测在有噪环境下的准确率。
根据本发明的一个方面,提供一种语音基音频率检测方法,包括:
检测语音信号帧中的单调分量;
利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;
计算候选基频集合中每个候选基频的和谐判据;
将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
优选的,检测语音信号帧中的单调分量的步骤包括:
针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。
优选的,若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值;
若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的步骤。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中的步骤包括:
选择频谱幅值最大的M个单调分量;
对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数;
将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
优选的,将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中的步骤之后,还包括:
将候选基频集合中数值接近的候选基频合并。
优选的,将候选基频集合中数值接近的候选基频合并的步骤包括:
对于候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi},i=1,2,...,Kg,若满足
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210427486.8/2.html,转载请声明来源钻瓜专利网。