[发明专利]一种基于多尺度非线性能量算子的语音信号周期分割方法有效
申请号: | 201810640530.0 | 申请日: | 2018-06-21 |
公开(公告)号: | CN108830232B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 朱成华;卢光明;武克斌;张大鹏;钟德才 | 申请(专利权)人: | 浙江中点人工智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 广州海藻专利代理事务所(普通合伙) 44386 | 代理人: | 王敏 |
地址: | 325025 浙江省温州市龙湾区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 非线性 能量 算子 语音 信号 周期 分割 方法 | ||
本发明涉及一种基于多尺度非线性能量算子TKEO(Teager‑Kaiser energy operator)的语音信号周期分割算法,首先在TKEO算子的基础上定义aTKEO算子,再将aTKEO算子扩展至带尺度参数L的算子,通过最大值融合、乘积融合和均值融合策略实现融合,最后根据三种融合策略对应的GCI提取算法实现语音信号周期分割;本算法无须预知基频信息,无短时平稳假设和线性假设,对多种声音类型鲁棒,同时运算复杂度低,速度快、运算精度高。
技术领域
本发明属于语音信号周期分割技术领域,特别涉及一种基于多尺度非线性能量算子的语音信号周期分割方法。
背景技术
人的声音中包括丰富的生物医学信息,由于其具有直接性、非侵入式、自动化等优点,使其在语义理解,健康分析等方面引起广泛关注,尤其在情感分析方面拥有广阔的应用前景。
声音的产生伴随着声带的振动,与情感相关的声音特征中,基频、语速、流畅度等特征的提取,依赖于准确的周期分割。利用声门闭合时刻进行周期分割是比较常用的周期分割方法。
声门闭合时刻(Glottal closure instant,GCI)是指每次声带振动中声门闭合的时刻,GCI是每个周期的关键特征点,相邻GCI之间的语音波形即构成一个完整周期。因此提取GCI可用来将语音信号分割为多个单周期信号,即进行周期分割。
传统的GCI提取算法假设声音信号具有平稳特点,以线性模型来模拟发声过程,然而真实的声音具有局部突变、非线性的特点。而且传统的GCI提取算法需预先获知基频信息,故不具有独立性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多尺度非线性能量算子TKEO(Teager-Kaiser energy operator)的语音信号周期分割算法,本发明的算法不仅准确率较高,对多种声音类型鲁棒,而且还具有较低的计算复杂度。
其技术方案如下:
S1、多尺度非线性能量算子TKEO表示为:
Ψ[x(n)]=x(n)2-x(n-1)x(n+1)
其中x(n)为离散语音信号,n代表采样点。
S2、定义绝对TKEO算子aTKEO(absoluteTKEO):
|Ψ[x(n)]|=|x(n)2-x(n-1)x(n+1)|
S3、将aTKEO扩展至带尺度参数L的算子RaTKEO,定义如下:
|ΨL[x(n)]|=|x(n)2-x(n-L)x(n+L)|
样本点x(n-L)或x(n+L)与x(n)的时间距离等于尺度参数L,其中,参数L为正整数。
S4、分别采用最大值融合、乘积融合和均值融合三种融合策略得到以下三个融合值:
其中,M为尺度个数,k为尺度,p1(n)表示采用最大值融合时的融合值,最大融合策略对应的声门闭合时刻(GCI)提取算法为GMATmax;p2(n)表示采用乘积融合时的融合值,乘积整合策略对应的GCI提取算法为GMATprod;p3(n)表示采用均值融合时的融合值;均值融合策略对应的GCI提取算法为GMATmean。
S5、采用下述高通滤波器检测幅度陡增时刻:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江中点人工智能科技有限公司,未经浙江中点人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810640530.0/2.html,转载请声明来源钻瓜专利网。