[发明专利]基于多分辨率的听觉感知语音特征参数提取方法在审
申请号: | 201910297406.3 | 申请日: | 2019-04-15 |
公开(公告)号: | CN110010150A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 林琳;孙晓颖;陈建;刘璐;于帆;王知强;张骞;武艺 | 申请(专利权)人: | 吉林大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/03;G10L25/21 |
代理公司: | 吉林长春新纪元专利代理有限责任公司 22100 | 代理人: | 魏征骥 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音特征参数提取 分辨率特征 压缩滤波器 动态参数 多分辨率 听觉感知 语音 自适应 分辨率 耳蜗 掩蔽 语音信号处理 分离目标 分离特征 分离效果 分离性能 平滑处理 输入语音 特征参数 研究对象 语音感知 噪声环境 可懂度 滤波 时频 组对 联合 | ||
本发明涉及一种基于多分辨率的听觉感知语音特征参数提取方法,属于语音信号处理领域。以噪声环境下单通道输入语音信号为研究对象,通过对输入信号进行时频表示,在不同分辨率下提取基于自适应压缩滤波器组的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,使用ARMA模型对特征进行平滑处理,来进一步提高语音分离性能。优点在于:采用掩蔽作为分离目标,特征参数的有效性对分离效果的影响,为提高分离后语音的可懂度提供了一个重要的理论依据;利用自适应压缩滤波器组对输入信号进行滤波,在不同分辨率下,提取每通道的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,更好地提高分离特征的语音感知能力,进而提高语音分离的性能。
技术领域
本发明涉及语音信号处理领域,特别是对噪声环境下的语音信号,在进行基于掩蔽的单声道语音分离时所使用的一种语音特征参数提取方法。
背景技术
单声道语音分离是从单麦克风记录的数据中,从背景干扰下提取目标说话人的语音。基于掩蔽的单声道语音分离技术通过提取混合带噪语音的特征参数,对分离目标语音的掩码进行估计,从而实现目标语音的分离。好的语音特征参数能够提高分离目标语音的可懂度,在语音分离的应用领域,比如助听器的设计、移动通信等领域中十分重要。
目前,在单声道语音分离的特征的研究中,《一种语音分离方法及装置》CN108962276A使用当前分离信号与P个分离信号中除当前分离信号之外的其他分离信号之间的交叉残留系数,进行后续的分离。《一种基于时间延迟直方图的语音分离方法》CN108269583A提取数字声音信号的频谱;利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;提出一种基于时间延迟直方图的语音分离方法。《一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法》CN107845389A提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,采用多分辨率听觉倒谱系数(MR-GFCC)作为分离特征。近年来,已经有很多能够表示语音感知特性的特征被应用到语音分离中,并取得了很好的分离性能。目前,语音分离中使用的听觉特征包括梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测系数PLP(Perceptual linear prediction)、RASRA-PLP特征(Relative spectral transformPLP)、Gammatone倒谱系数GFCC(Gammatone frequency cepstral coefficient)、Gammatone特征GF(Gammatone Feature)、幅度调制谱AMS(Amplitude modulationspectrogram)、基于基音的特征等。这些特征之间既存在互补性也存在冗余性,它们通常组合在一起使用。但是在信噪比较低的条件下,其实现的语音分离系统性能还是不尽人意。因此,如何提取一个好的听觉语音感知特征,提高分离目标语音的语音可懂度,进而提高语音分离系统性能,成为当前单声道语音分离领域研究的一个热点问题。
发明内容
本发明提供一种基于多分辨率的听觉感知语音特征参数提取方法,以噪声环境下单通道输入语音信号为研究对象,通过对输入信号进行时频表示,在不同分辨率下提取基于自适应压缩Gammachirp滤波器组的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,使用ARMA模型(Auto-regressive and moving average model)对特征进行平滑处理,来进一步提高语音分离性能。
本发明采取的技术方案是,包括下列步骤:
(1)、语音信号的预处理
语音信号的预处理过程包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重,得到预处理后信号xx(n),n=1,2,...N,其中N为输入信号长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910297406.3/2.html,转载请声明来源钻瓜专利网。