[发明专利]一种基于声学特征转换的语音清晰度增强方法有效
| 申请号: | 201910281080.5 | 申请日: | 2019-04-09 | 
| 公开(公告)号: | CN110085245B | 公开(公告)日: | 2021-06-15 | 
| 发明(设计)人: | 胡瑞敏;李罡;张锐;柯善发;王晓晨 | 申请(专利权)人: | 武汉大学 | 
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L15/06;G10L15/20;G10L25/18;G10L25/30 | 
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 | 
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 声学 特征 转换 语音 清晰度 增强 方法 | ||
1.一种基于声学特征转换的语音清晰度增强方法,其特征在于,包括:
步骤A、训练训练贝叶斯高斯混合模型,具体包括:
步骤A1:搜集语音资料构建训练数据集,语音资料包括普通语音和抗噪语音两部分;训练数据集中,普通语音为说话人在安静环境中产生的普通风格语音信号;抗噪语音为说话人在噪声环境中说话时,受环境噪声压迫而本能产生的一种音调改变、具备更强抵御噪声掩蔽能力的抗噪语音信号,这种受压迫而改变音调的本能行为称作Lombard效应,故抗噪语音又称为Lombard语音;普通语音和Lombard语音是平行数据,即数据集中每一个人说的每一句话既有普通风格语音又有对应的Lombard风格语音;Lombard语音包含不同场景下不同能量的噪声激励时产生的语音信号;组建数据集过程中既可以一句普通语音对应多个不同场景的Lombard语音,也可以每句普通语音只有某一个场景下的Lombard语音与之对应;
步骤A2:使用时长对齐算法,将每一句Lombard语音的时长匹配至与对应普通语音时长相等;
步骤A3:对数据集中的普通语音进行编解码处理,获得解码后的语音信号;
步骤A4:使用重叠窗对所有语音信号分帧;
步骤A5:提取每帧普通语音的对数幅度谱、能量系数、基频系数,提取Lombard语音的线谱频率、能量系数、基频系数;将对数幅度谱作为普通语音的频谱倾斜度特征表达式,将线谱频率作为Lombard语音的频谱倾斜度特征表达式;
步骤A6:使用普通语音的对数幅度谱作为输入数据,使用Lombard语音的线谱频率作为输出数据,训练长短时记忆(Long Short-Term Memory,LSTM)网络作为频谱倾斜度特征映射模型;
步骤A7:使用普通语音的能量系数、基频系数作为输入数据,使用Lombard语音的能量系数、基频系数作为输出数据训练贝叶斯高斯混合模型(Bayesian Gaussian MixtureModel,BGMM)作为能量和基频特征映射模型;
步骤B、采用步骤A中训练好的模型进行语音清晰度增强,具体包括:
步骤B1:逐帧获取实时语音通信终端设备或实时语音交互设备解码后的语音信号,提取解码信号的对数幅度谱、能量系数、基频系数,作为待映射的参数;根据步骤B3中合成声码器的差异,若合成声码器需要非映射参数则提取相应的参数,若合不需要非映射参数则不提取;因本发明不限定声码器的种类,故既不限定非映射参数是否提取,也不限定提取的数量和种类;
步骤B2:使用由LSTM网络构成的频谱倾斜度特征映射模型将对数幅度谱映射为具备Lombard语音特性的线谱频率,使用由BGMM模型构成的能量和基频特征映射模型将能量系数、基频系数映射为具备Lombard语音特性的能量系数、基频系数;
步骤B3:根据映射后的特征参数和步骤B1中提取的所需非映射参数,使用声码器合成Lombard语音;
步骤B4:根据环境噪声,使用自适应增益控制算法实时调整输出语音信号的增益;
步骤A5和B1中对数幅度谱是基于长度为L的离散傅里叶变换并取对数运算得到,L的取值为2n数值,其中n取正整数;线谱频率的特征在于由P阶线性预测模型计算得到,P的长度取4n,其中n为大于等于2的正整数,线性预测模型采用经典线性预测算法或改进型线性预测算法;能量系数和基频系数的特征在于每一帧用一个数值表达,即它们都为一维变量,计算方式可以为现有能量系数和基频系数计算方法中的任意一种;步骤B1所述的非映射参数因步骤B2中所使用的声码器而异,常用参数包括频谱包络、第一共振峰频率、第二共振峰频率等,也有某些声码器不需要非映射参数。
2.根据权利要求1所述的一种基于声学特征转换的语音清晰度增强方法,其特征在于,步骤A2中,同一个人在不同环境中说出的同一句话存在一定时长差异,所以需要使用动态时间归整(Dynamic Time Warping,DTW)等任意一种时长对齐算法,使每一句Lombard语音的时长与对应普通语音时长一致。
3.根据权利要求1所述的一种基于声学特征转换的语音清晰度增强方法,其特征在于,步骤A中,对数据集中的普通语音进行编解码处理,获得解码后的语音信号,从而在步骤A6和A7中,使映射模型能够学习重建无失真语音信号声学特征的能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910281080.5/1.html,转载请声明来源钻瓜专利网。





