[发明专利]基于性别预判与多频段参数映射的语音基音频率估计方法有效
申请号: | 201510489027.6 | 申请日: | 2015-08-11 |
公开(公告)号: | CN105185385B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 黄程韦;于拾全;朱晓明 | 申请(专利权)人: | 东莞市凡豆信息科技有限公司 |
主分类号: | G10L25/18 | 分类号: | G10L25/18 |
代理公司: | 44299 广州恒华智信知识产权代理事务所(普通合伙) | 代理人: | 姜宗华<国际申请>=<国际公布>=<进入 |
地址: | 523808广东省东莞市松山湖高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 性别 频段 参数 映射 语音 基音 频率 估计 方法 | ||
1.一种基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
所述步骤1)包括:
(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;
(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化;
2)根据发音人性别的判断结果进行参数的优化;
所述步骤2)包括:
(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;
(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索;
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率;所述步骤3)包括:
(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的映射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;
(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计;
发音人性别的判断方法如下:
对不同的男女发音人,提取其基音频率的均值Pmean,当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性,其中G=1;当频率低于200Hz的性别临界频率Fc足够偏移量Foff时,则判断为男性,其中G=-1;否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示,
IF Pmean>Fc+Foff G=1
ELSEIF Pmean<Fc+Foff G=-1
ELSE G=L (1)
其中,L=(Pmean-200)/Foff (2);
基音频率的估计方法如下:
1)中心削波法
设一段时间内一帧语音数据为:S(t),t=0,1,2,...,T,其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2} (3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2} (4)
选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1} (5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax (6)
其中可取常数C=0.618;
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th (7)
2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB} (9)
其中Fs为采样频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市凡豆信息科技有限公司,未经东莞市凡豆信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510489027.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制冷压缩机供油系统
- 下一篇:一种驼色斜锦涤面料的染色工艺