[发明专利]一种得到具有精细时频结构的声纹图的方法无效
申请号: | 200910232048.4 | 申请日: | 2009-11-27 |
公开(公告)号: | CN101727905A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 于凤芹 | 申请(专利权)人: | 江南大学 |
主分类号: | G10L19/00 | 分类号: | G10L19/00 |
代理公司: | 无锡市大为专利商标事务所 32104 | 代理人: | 曹祖良 |
地址: | 214122 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 得到 具有 精细 结构 声纹 方法 | ||
技术领域
本发明涉及一种语音信号的时频分析方法,尤其是一种得到具有精细时频 结构的声纹图的方法。
背景技术
声纹图也称为语谱图,简称谱图,1941年由贝尔实验室研究人员发明,它 用三维或二维图形方式显示语音频谱特性,纵轴表示频率,横轴表示时间,颜 色的深浅表示特定频带的能量大小。最早的模拟语谱图仪器是把声波转换成电 信号的强度、波长、频率和节奏,再把这些电信号绘制成波谱图形。
目前使用的语谱图分为宽带(短窗)语谱图和窄带(长窗)语谱图两种。这两种 语谱图都是基于短时傅立叶变换方法得到的,而短时傅里叶变换假定在分析窗 内语音信号是平稳的,通过在时间轴上移动分析窗来得到一组局部时频图。但 是对于具有明显时变特性的语音信号来说,取较短的分析窗,即使用宽带语谱 图(带宽约为300Hz)较合理,故宽带语谱图具有良好的时间分辨率,但是频率 分辨率较差;相反,如果使用较长的分析窗,即窄带语谱图(带宽约为45Hz), 具有良好的频率分辨率,但是时间分辨率较差。所以,受不确定性原理限制, 不能同时提高时间分辨率和频率分辨率,目前只能同时使用宽带和窄带语谱图。
基于短时傅里叶变换的语谱图,在时频平面对能量分布的描述是粗糙的。 非线性时频分析是描述非平稳语音信号的有效方法,其中维格那-威利分布 (Wigner-Ville Distribution,WVD)作为典型的时频分布,具有最好时频聚集性, 其时间频宽积已达到了不确定性原理的下界,即WVD具有最好的时频分辨率。 但由于它是一种双线性变换,多分量信号的WVD中存在交叉项,交叉项干扰了 信号原本固有的时频结构。语音是非平稳、多分量的、实值信号,其WVD无法 提供反映语音非平稳特征的时频结构,因此,基于非线性时频分析方法也不能 提供有效的声纹图。
人类的发声系统系统由发声控制器和发声共鸣器等组成,发声控制器官包 括声带、软颚、舌头、牙齿、唇等,而发声共鸣器包括咽腔、口腔、鼻腔。由 于人的发声器官存在着大小、形态及功能上的差异,这些器官的微小差异都会 导致发声气流的改变,从而造成音质和音色的差别。此外,每个人的发声习惯 有快有慢,用力有大有小,也会造成音强和音长的差别,所以,语音是人类的 生物特征之一。语谱图中每一字的声纹前部是清辅音的频谱,后部是元音频谱; 元音频谱由加强的纵线条构成,水平方向的黑带为共振峰,共振峰的数量、走 向及其频率是声纹分析的重要特征。因此对语谱图的分析,可以进行声纹鉴定。 而声纹鉴定正广泛应用于当今社会的诸多领域。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种得到具有精细时频 结构的声纹图的方法,得到反映语音信号固有的非平稳特征的精细时频结构的 声纹图,为后续的声纹识别提供原始的、细腻的、丰富的语音特征。
按照本发明提供的技术方案,所述得到具有精细时频结构的声纹图的方法, 通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,再对每个 固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅 值随随时间和频率的变化规律的Hilbert谱;在时频平面将所述Hilbert谱以三维 图形画出,得到具有精细时频结构的声纹图。
所述经验模态分解的方法为:
(1)求原始信号序列x(t)的各个局部极大值,用三阶样条函数进行插值,得到 信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t);
(2)对每个时刻的上包络线序列值emax(t)和下包络线序列值emin(t)取平均值, 得到包络线的瞬时平均值m(t)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910232048.4/2.html,转载请声明来源钻瓜专利网。