[发明专利]语音降噪模型的训练方法、语音评分方法、装置及介质在审
申请号: | 202111025632.X | 申请日: | 2021-09-02 |
公开(公告)号: | CN114283828A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 柯登峰;解焱陆;张劲松;林炳怀;王丽园 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0264;G10L25/60 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;张颖玲 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 模型 训练 方法 评分 装置 介质 | ||
1.一种语音降噪模型的训练方法,其特征在于,所述语音降噪模型包括:噪音处理层,发音差异处理层和内容差异处理层,所述方法包括:
通过所述噪音处理层,对语音样本进行降噪处理,得到目标语音样本;
通过所述发音差异处理层,对所述目标语音样本进行发音评分的预测,得到发音预测结果,所述发音预测结果,用于指示所述目标语音样本与所述语音样本对应的参考发音间的发音相似度;
通过所述内容差异处理层,确定所述目标语音样本的内容与所述语音样本的内容间的内容差异;
基于所述发音预测结果以及所述内容差异,更新所述语音降噪模型的模型参数,以得到训练完成的语音降噪模型。
2.如权利要求1所述的方法,其特征在于,所述噪音处理层包括:第一特征变换层、滤波处理层以及第二特征变换层;
所述通过所述噪音处理层,对语音样本进行降噪处理,得到目标语音样本,包括:
通过所述第一特征变换层,对所述语音样本进行傅里叶变换,得到所述语音样本对应的幅度谱和相位谱;
通过所述滤波处理层,对所述幅度谱进行滤波处理,得到目标幅度谱,并对所述相位谱进行相位修正,得到目标相位谱;
通过所述第二特征变换层,将所述目标幅度谱和所述目标相位谱进行相乘,并将相乘得到的结果进行傅里叶逆变换,得到所述目标语音样本。
3.如权利要求2所述的方法,其特征在于,所述滤波处理层包括至少两个级联的子滤波处理层;
所述通过所述滤波处理层,对所述幅度谱进行滤波处理,得到目标幅度谱,并对所述相位谱进行相位修正,得到目标相位谱,包括:
通过第一级的子滤波处理层,对所述幅度谱进行滤波处理,得到中间幅度谱,并对所述相位谱进行相位修正,得到中间相位谱;
通过非第一级的子滤波处理层,对所述中间幅度谱进行滤波处理得到所述目标幅度谱,并对所述中间相位谱进行相位修正得到所述目标相位谱。
4.如权利要求3所述的方法,其特征在于,各所述子滤波处理层包括相位谱修正层、以及至少两个级联的幅度谱滤波层;
所述通过第一级的子滤波处理层,对所述幅度谱进行滤波处理,得到中间幅度谱,并对所述相位谱进行相位修正,得到中间相位谱,包括:
通过所述至少两个级联的幅度谱滤波层,对所述幅度谱进行滤波处理,得到中间幅度谱;
通过所述相位谱修正层,基于所述中间幅度谱对所述相位谱进行相位修正,得到中间相位谱。
5.如权利要求2所述的方法,其特征在于,所述第二特征变换层包括特征转换层、和特征逆变换层;
所述通过所述第二特征变换层,将所述目标幅度谱和所述目标相位谱进行相乘,并将相乘得到的结果进行傅里叶逆变换,得到所述目标语音样本,包括:
通过所述特征转换层,将所述目标幅度谱转换为幅度谱掩模,并确定所述目标相位谱对应的相位角;
通过所述特征逆变换层,将所述目标幅度谱、所述幅度谱掩模和所述目标相位谱对应的相位角进行相乘,并将相乘得到的结果进行傅里叶逆变换,得到所述目标语音样本。
6.如权利要求1所述的方法,其特征在于,所述内容差异处理层包括:傅里叶变换层;
所述通过所述内容差异处理层,确定所述目标语音样本的内容与所述语音样本的内容间的内容差异,包括:
通过所述傅里叶变换层,对所述目标语音样本进行傅里叶变换,得到第一幅度谱,并对所述语音样本进行傅里叶变换,得到第二幅度谱;
确定所述第一幅度谱与所述第二幅度谱之间的幅度差异,并将所述幅度差异确定为所述目标语音样本的内容与所述语音样本的内容间的内容差异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111025632.X/1.html,转载请声明来源钻瓜专利网。