[发明专利]长短帧联合的混合音频信号多基音估计方法无效
申请号: | 200910050350.8 | 申请日: | 2009-04-30 |
公开(公告)号: | CN101567188A | 公开(公告)日: | 2009-10-28 |
发明(设计)人: | 王冬梅;黄青华 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G05B13/00 |
代理公司: | 上海上大专利事务所(普通合伙) | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 长短 联合 混合 音频 信号 基音 估计 方法 | ||
技术领域
本发明涉及混合音频信号多基音估计的方法,此方法有别于传统单个音频信号基音的估计。具体是基于音频信号的谐波原理,结合长窗帧和短窗帧的频谱峰值进行多基音估计,并将混合信号短时自相关计算得到的主基音值以及长、短窗共同的第一、第二峰值作为两个粗略的基音值,来跟踪平滑初始估计出的基音值。与传统的多基音估计相比,本方法结合了长、短窗帧,克服了语音信号的短时平稳性和短时傅立叶变换频率分辨率低的矛盾;并利用了两步跟踪平滑方法,使得基音估计值更准确。
背景技术
单基音估计是音频信号处理领域重要技术之一,已经发展得很成熟,但是多基音估计还是音频信号处理领域的最难解决的问题之一。随着音频信号处理新的研究方向的出现,多基音估计显得尤为重要,比如单通道音频信号盲分离,音频检索,流行音乐中歌词的自动获取等。
目前多基音估计主要是基于音频信号的谐波原理在频域里进行的,或者是利用计算听觉场景分析(CASA)在时间-频率域上进行的。前者对混合信号进行短时傅立叶变换,提取并预处理频谱峰值,然后用迭代的方法或者最大似然的方法进行多基音估计,此方法的缺点是在音频信号的短时平稳性与短时傅里叶变换的频率分辨率的选择上存在矛盾,使得某些靠近的频谱峰值相互覆盖而丢失;后者是根据人耳的听觉特性,将信号分解成频域上非线性分布的一系列时频单元,利用时频单元内部的短时自相关和相邻时频单元之间的互相关进行多基音的估计,但是各个时频单元相关性计算值往往与真实值之间有很大的差异。粒子滤波也是一种有效的多基音估计方法,但是其计算复杂度高。
发明内容
本发明的目的是提供一种有效的长短帧联合的混合音频信号的多基音估计方法,克服传统方法由于音频信号的短时平稳性和傅立叶变换时频分辨率相矛盾的而造成的不足,并使得最终基音结果得到平滑跟踪。
为了达到上述目的,本发明采用下述记述方案:
一种长短帧联合的混合音频信号多基音估计方法,其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:
(1)将混合音频信号分成帧中心重合的长帧和短帧,分别对每一组长帧和短帧信号进行短时傅立叶变换,提取各自的频谱峰值并进行预处理,得到长窗信号的频谱峰值以及短窗信号的频谱峰值
(2)利用长窗信号的频谱峰值进行该帧混合信号的主基音初步估计:计算所有峰值之间的频率间隔并作为潜在基音向量再利用每个元素与中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音Pitchpromi;
(3)利用Pitchpromi、以及判断本帧信号的个数状态,用状态向量来表示;其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系,将混合信号分为四种情况,分别是:情况1,只有一个以Pitchpromi为基音的信号;情况2,只有一个以Pitchpromi的两倍或更高频率为基音值的信号;情况3,以高频基音信号为主能量信号,而以Pitchpromi为基音的信号非主要能量信号;情况4,有两个信号且能量相当;
(4)根据步骤(3)中个数状态向量进行各种状态下的基音估计。在谐波原理的基础上,利用频谱峰值以及潜在基音向量在频率上的整数倍关系,在频率偏差最小和谐波数最多的联合约束条件下,通过选取最优值进行多基音估计;
(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪;
(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值(非第一峰值整数倍)处的频谱对步骤(5)中处理过的峰值进行第二次跟踪平滑;
(7)利用连续基音值的相似性和连续谐波峰值相似性,将以上跟踪平滑过后的峰值进行聚类,使其归属到各自的信号。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
本发明采用长、短窗相结合,克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾,避免了由于主瓣太宽而使得某些峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。
附图说明
图1为本发明所述方法的流程图;
具体实施方式
本发明的一个优选实施例结合附图详细描述如下:
本方法的流程图参见图1,本长短帧联合的混合音频多基音估计方法,是基于谐波模型并结合长短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910050350.8/2.html,转载请声明来源钻瓜专利网。