[发明专利]语音质量的评估模型、训练评估方法、系统、设备及介质在审
申请号: | 202011380915.1 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112562724A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 朱城锜;罗超;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/30;G10L25/60 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 质量 评估 模型 训练 方法 系统 设备 介质 | ||
1.一种基于神经网络的语音质量的评估模型,其特征在于,包括:
端点检测模块,用于输入待评估的音频信号,并对所述音频信号进行有效音频端点检测得到第一音频信号;
与所述端点检测模块的输出连接的预处理模块,用于对所述第一音频信号进行预处理得到语谱图;
与所述预处理模块的输出连接的特征提取模块,用于提取所述语谱图的特征;
与所述特征提取模块的输出连接的第一神经元,用于根据所述特征使用交叉熵损失函数判断所述第一音频信号是否为语音信号以得到加权系数;
与所述特征提取模块的输出连接的第二神经元,用于根据所述特征及所述加权系数使用误差损失函数得到所述第一音频信号的质量得分。
2.如权利要求1所述的基于神经网络的语音质量的评估模型,其特征在于,所述特征提取模块包括卷积层、GRU网络和DNN网络;
所述卷积层、所述GRU网络和所述DNN网络依次连接;
所述卷积层用于提取所述语谱图的初始特征;
所述GRU网络用于记录所述初始特征的历史信息的影响并生成所述语谱图的中间特征;
所述DNN网络用于对所述中间特征进行整合以生成所述语谱图的特征。
3.如权利要求1所述的基于神经网络的语音质量的评估模型,其特征在于,所述预处理模块还用于对所述第一音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述语谱图。
4.一种语音质量的评估模型的训练方法,其特征在于,所述语音质量评的估模型包括如权利要求1-3中任意一项所述的基于神经网络的语音质量的评估模型,所述训练方法包括:
标注样本语音;
计算所述交叉熵损失函数;
基于所述交叉熵损失函数将所述样本语音输入到所述语音质量的评估模型进行预训练;
计算所述交叉熵损失函数和所述误差损失函数;
基于所述交叉熵损失函数和所述误差损失函数将所述样本语音输入到所述语音质量的评估模型进行联合训练。
5.一种语音质量的评估方法,其特征在于,包括
将待评估音频信号输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。
6.如权利要求5所述的语音质量的评估方法,其特征在于,所述评估方法还包括:
对待评估音频信号进行端点检测得到第二音频信号;
对所述第二音频信号进行预处理得到待评估语谱图;
所述将待评估音频信号输入到使用如权利要求4所述的语音质量评估模型的训练方法训练所得的语音质量评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分的步骤具体包括:
将所述待评估语谱图输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分。
7.如权利要求6所述的语音质量的评估方法,其特征在于,所述对所述第二音频信号进行预处理得到待评估语谱图的步骤具体包括:
对所述第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述待评估语谱图。
8.一种语音质量的评估系统,其特征在于,包括
质量评估模块,用于将待评估音频信号输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011380915.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电杆临时固定装置
- 下一篇:一种空调装置及控制方法