[发明专利]语音增强方法在审
| 申请号: | 201810827229.0 | 申请日: | 2018-07-25 |
| 公开(公告)号: | CN110767244A | 公开(公告)日: | 2020-02-07 |
| 发明(设计)人: | 杜俊;高天;屠彦辉;王立众;杨磊;徐学淼 | 申请(专利权)人: | 中国科学技术大学;北京三星通信技术研究有限公司 |
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208;G10L25/30 |
| 代理公司: | 11260 北京凯特来知识产权代理有限公司 | 代理人: | 郑立明;郑哲 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声学特征 掩蔽 神经网络模型 双输出 语音帧 人耳 重构 语音 应用 语音识别系统 干净语音 输入语音 语音增强 噪声语音 增强处理 提升带 准确率 降噪 样本 观测 | ||
1.一种语音增强方法,其特征在于,包括:
提取各语音帧的声学特征;
利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练,利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽,并进行声学特征的增强处理;
如果应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形;如果应用到语音识别系统,则将估计到的理想软掩蔽应用到输入语音的声学特征上上,得到掩蔽后的声学特征,然后对波形进行重构得到增强后的语音。
2.根据权利要求1所述的一种语音增强方法,其特征在于,所述提取各语音帧的声学特征包括:
对输入的语音信号进行分帧处理,获得语音帧序列;
声学特征采用对数功率谱特征,在提取各语音帧对数功率谱特征时,通过傅立叶变换和取模得到频域信号:
上式中,d为频率维度,h(l)为窗函数,L为做离散傅里叶变换的点数;
对数功率谱特征定义为:
Y(d)=log|Y(d)'|2d=0,1,...,D-1;
上式中,D=L/2+1。
3.根据权利要求2所述的一种语音增强方法,其特征在于,该方法还包括:将提取的声学特征作为渐进式双输出神经网络模型的输入之前,还进行连续帧的拼接,拼接时以一定数量的帧拼接后的数据作为一个样本,样本的中心帧的标注作为其所在样本的标注。
4.根据权利要求1所述的一种语音增强方法,其特征在于,所述渐进式双输出神经网络模型按照信噪比逐渐增加的方式去学习最终目标,最终训练好的渐进式双输出神经网络模型能够预测各个时频点的理想软掩蔽,还能够对声学特征进行增强处理,即预测干净语音的对数功率谱特征。
5.根据权利要求1或4所述的一种语音增强方法,其特征在于,预测干净的对数功率谱特征的公式为:
其中,表示预测到的干净语音的对数功率谱特征,表示理想软掩蔽,log((Y2(t,d))=Y(d),Y(d)为提取的对数功率谱特征,d为频率维度,t为时间。
6.根据权利要求1所述的一种语音增强方法,其特征在于,基于最小批模式的随机梯度下降算法来提升渐进式双输出神经网络模型学习的收敛速度,表示为:
上式中,E是渐进式双输出神经网络模型学习的平均平方误差,对应的表示第1…K个渐进式学习目标在第n帧,第d个频率维的增强对数功率谱特征、目标的对数功率谱特征;对应的表示估计的理想软掩蔽、目标理想软掩蔽;N表示最小批的大小,即样本的数量;D对数功率谱特征向量的总维度;(Wl,bl)表示在第l层有待学习的权重和偏置的参数。
7.根据权利要求1所述的一种语音增强方法,其特征在于,如果应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形包括:
首先,计算
上式中,为实数域上的定义,表示增强后的对数功率谱特征,也是增强后的对数功率谱特征,为复数域上的定义;∠Y(d)是指从输入语音中得到的相位信息;
然后,反向离散傅里叶变换重构得到增强后的时域语音
其中,L为提取各语音帧的声学特征时做离散傅里叶变换的点数;
最后,通过重叠相加算法合成整个句子的波形。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京三星通信技术研究有限公司,未经中国科学技术大学;北京三星通信技术研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827229.0/1.html,转载请声明来源钻瓜专利网。





