[发明专利]音频处理方法、装置、计算机设备及存储介质在审
| 申请号: | 202010924136.7 | 申请日: | 2020-09-04 |
| 公开(公告)号: | CN111986691A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 夏咸军 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0232;G10L25/27;G10L25/30 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种音频处理方法,其特征在于,所述方法包括:
获取待处理音频的频谱特征;
根据所述频谱特征,确定所述待处理音频的分类概率信息和第一噪声抑制信息,所述分类概率信息用于指示所述待处理音频为非语音的概率,所述第一噪声抑制信息用于指示以将所述待处理音频处理为纯语音为目标,对所述待处理音频中噪声的抑制程度;
根据所述分类概率信息,对所述第一噪声抑制信息进行更新,得到第二噪声抑制信息;
根据所述第二噪声抑制信息,对所述待处理音频进行噪声抑制处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述频谱特征,确定所述待处理音频的分类概率信息和第一噪声抑制信息,包括:
将所述频谱特征输入声音识别模型,得到所述声音识别模型输出的所述待处理音频的分类概率信息,所述声音识别模型用于对所述待处理音频进行分类;
将所述频谱特征输入噪声抑制模型,得到所述噪声抑制模型输出的所述待处理音频的第一噪声抑制信息,所述噪声抑制模型用于确定以将所述待处理音频处理为纯语音为目标,对所述待处理音频中噪声的抑制程度。
3.根据权利要求2所述的方法,其特征在于,所述将所述频谱特征输入噪声抑制模型,得到所述噪声抑制模型输出的所述待处理音频的第一噪声抑制信息,包括:
将所述频谱特征输入噪声抑制模型;
基于所述噪声抑制模型,根据所述频谱特征与纯语音的频谱特征之间的距离,输出噪声抑制系数,将所述噪声抑制系数作为所述待处理音频的第一噪声抑制信息。
4.根据权利要求2所述的方法,其特征在于,所述声音识别模型的训练步骤包括:
获取反类数据和正类数据,所述反类数据包括纯噪声数据,所述正类数据包括纯语音数据和叠加数据,所述叠加数据由所述纯噪声数据和所述纯语音数据叠加得到;
基于待训练的初始声音识别模型对所述反类数据和所述正类数据分别进行预测;
根据预测结果,调整所述初始声音识别模型的模型参数,得到所述声音识别模型。
5.根据权利要求2所述的方法,其特征在于,所述噪声抑制模型的训练步骤包括:
获取反类数据和正类数据,所述反类数据包括纯噪声数据,所述正类数据包括纯语音数据和叠加数据,所述叠加数据由所述纯噪声数据和所述纯语音数据叠加得到;
基于待训练的初始噪声抑制模型对所述反类数据和所述正类数据分别进行预测,得到预测噪声抑制系数;
根据所述预测噪声抑制系数和所述叠加数据的频谱特征,确定目标特征;
根据所述目标特征与所述纯语音数据的频谱特征之间的距离,调整所述初始噪声抑制模型的模型参数,得到所述噪声抑制模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标特征与所述纯语音数据的频谱特征之间的距离,调整所述初始噪声抑制模型的模型参数,得到所述噪声抑制模型,包括:
获取参考噪声抑制系数,所述参考噪声抑制系数基于纯语音数据的频谱特征和叠加数据的频谱特征得到;
根据所述预测噪声抑制系数和所述参考噪声抑制系数,调整所述初始噪声抑制模型的模型参数,以使得所述目标特征与所述纯语音数据的频谱特征之间的距离最小,得到所述噪声抑制模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述分类概率信息,对所述第一噪声抑制信息进行更新,得到第二噪声抑制信息,包括:
根据所述第一噪声信息,获取所述待处理音频的噪声抑制系数,所述噪声抑制系数与对噪声的抑制程度成正比;
获取所述分类概率信息所指示的非语音的概率与所述噪声抑制系数的乘积,将所述乘积作为所述第二噪声抑制信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010924136.7/1.html,转载请声明来源钻瓜专利网。





