[发明专利]基于多分辨率的听觉感知语音特征参数提取方法在审

申请号：	201910297406.3	申请日：	2019-04-15
公开（公告）号：	CN110010150A	公开（公告）日：	2019-07-12
发明（设计）人：	林琳;孙晓颖;陈建;刘璐;于帆;王知强;张骞;武艺	申请（专利权）人：	吉林大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0308;G10L25/03;G10L25/21
代理公司：	吉林长春新纪元专利代理有限责任公司 22100	代理人：	魏征骥
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音特征参数提取分辨率特征压缩滤波器动态参数多分辨率听觉感知语音自适应分辨率耳蜗掩蔽语音信号处理分离目标分离特征分离效果分离性能平滑处理输入语音特征参数研究对象语音感知噪声环境可懂度滤波时频组对联合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于多分辨率的听觉感知语音特征参数提取方法，属于语音信号处理领域。以噪声环境下单通道输入语音信号为研究对象，通过对输入信号进行时频表示，在不同分辨率下提取基于自适应压缩滤波器组的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，使用ARMA模型对特征进行平滑处理，来进一步提高语音分离性能。优点在于：采用掩蔽作为分离目标，特征参数的有效性对分离效果的影响，为提高分离后语音的可懂度提供了一个重要的理论依据；利用自适应压缩滤波器组对输入信号进行滤波，在不同分辨率下，提取每通道的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，更好地提高分离特征的语音感知能力，进而提高语音分离的性能。

技术领域

本发明涉及语音信号处理领域，特别是对噪声环境下的语音信号，在进行基于掩蔽的单声道语音分离时所使用的一种语音特征参数提取方法。

背景技术

单声道语音分离是从单麦克风记录的数据中，从背景干扰下提取目标说话人的语音。基于掩蔽的单声道语音分离技术通过提取混合带噪语音的特征参数，对分离目标语音的掩码进行估计，从而实现目标语音的分离。好的语音特征参数能够提高分离目标语音的可懂度，在语音分离的应用领域，比如助听器的设计、移动通信等领域中十分重要。

目前，在单声道语音分离的特征的研究中，《一种语音分离方法及装置》CN108962276A使用当前分离信号与P个分离信号中除当前分离信号之外的其他分离信号之间的交叉残留系数，进行后续的分离。《一种基于时间延迟直方图的语音分离方法》CN108269583A提取数字声音信号的频谱；利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值；提出一种基于时间延迟直方图的语音分离方法。《一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法》CN107845389A提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法，采用多分辨率听觉倒谱系数(MR-GFCC)作为分离特征。近年来，已经有很多能够表示语音感知特性的特征被应用到语音分离中，并取得了很好的分离性能。目前，语音分离中使用的听觉特征包括梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测系数PLP(Perceptual linear prediction)、RASRA-PLP特征(Relative spectral transformPLP)、Gammatone倒谱系数GFCC(Gammatone frequency cepstral coefficient)、Gammatone特征GF(Gammatone Feature)、幅度调制谱AMS(Amplitude modulationspectrogram)、基于基音的特征等。这些特征之间既存在互补性也存在冗余性，它们通常组合在一起使用。但是在信噪比较低的条件下，其实现的语音分离系统性能还是不尽人意。因此，如何提取一个好的听觉语音感知特征，提高分离目标语音的语音可懂度，进而提高语音分离系统性能，成为当前单声道语音分离领域研究的一个热点问题。

发明内容

本发明提供一种基于多分辨率的听觉感知语音特征参数提取方法，以噪声环境下单通道输入语音信号为研究对象，通过对输入信号进行时频表示，在不同分辨率下提取基于自适应压缩Gammachirp滤波器组的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，使用ARMA模型(Auto-regressive and moving average model)对特征进行平滑处理，来进一步提高语音分离性能。

本发明采取的技术方案是，包括下列步骤：

(1)、语音信号的预处理

语音信号的预处理过程包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重，得到预处理后信号xx(n),n＝1,2,...N，其中N为输入信号长度；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910297406.3/2.html，转载请声明来源钻瓜专利网。

上一篇：基于统计模型的双传感器语音增强方法
下一篇：一种音频信号处理方法及设备、存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多分辨率的听觉感知语音特征参数提取方法在审

专利文献下载