[发明专利]音频评测方法、装置、电子设备和介质有效
申请号: | 202110549296.2 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113035238B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 王桑;李成飞;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 祝乐芳 |
地址: | 100089 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 评测 方法 装置 电子设备 介质 | ||
本公开涉及一种音频评测方法、装置、电子设备和介质;其中,该方法包括:根据待评测音频和待评测音频的参考文本,确定待评测音频的发音质量GOP分数;若检测到GOP分数大于预设分数阈值,则将GOP分数输入预先确定的概率预测模型中,并根据概率预测模型的输出确定GOP分数的正样本概率;根据GOP分数的正样本概率和预先建立的分段函数模型,确定待评测音频的目标评测值。本公开实施例提高了对音频发音质量评测的准确性。
技术领域
本公开涉及音频处理技术领域,尤其涉及一种音频评测方法、装置、电子设备和介质。
背景技术
音频评测其目的是根据用户输入的语音信息进行发音质量的准确度评价,以对输入的音频进行音频质量的衡量;其可应用于儿童的发音检测。目前的音频评测主要是根据预先建立的音频评测模型计算输入音频的GOP分数,并根据认为经验进行分数阈值的限定,以此判断输入音频的发音质量。
在现有方法中,依靠人为经验设置的分数阈值,往往会根据分数阈值出现打分不合理的情况,尤其是在低幼儿童语音评测场景中,存在大量0分;使得语音评测效率降低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频评测方法、装置、电子设备和介质。
第一方面,本公开提供了一种音频评测方法,包括:
根据待评测音频和所述待评测音频的参考文本,确定所述待评测音频的发音质量GOP分数;
若检测到所述GOP分数大于预设分数阈值,则将所述GOP分数输入预先确定的概率预测模型中,并根据所述概率预测模型的输出确定所述GOP分数的正样本概率;其中,所述概率预测模型是根据历史音频数据的GOP分数划分得到正样本和负样本对第一预设网络模型进行训练得到的;
根据所述GOP分数的正样本概率和预先建立的分段函数模型,确定所述待评测音频的目标评测值;其中,所述分段函数模型包括至少两个正样本概率对应的分段函数子模型;所述分段函数子模型是根据历史音频数据的正样本概率和所述历史音频数据对应的打分值对第二预设网络模型训练得到的。
可选的,所述根据待评测音频和所述待评测音频的参考文本,确定所述待评测音频的发音质量GOP分数,包括:
确定待评测音频的参考文本中包含的音素;并从所述待评测音频中获取所述音素对应的音频帧;其中,所述参考文本中单个音素对应至少一个音频帧;
根据所述音素对应的音频帧确定所述音素与所述音频帧的匹配概率;
根据所述匹配概率和所述音素对应的音频帧的数量,确定所述音素的发音质量GOP分数;并将所述参考文本中包含的音素的GOP分数之和作为所述待评测音频的GOP分数。
可选的,所述将所述GOP分数输入预先确定的概率预测模型中之前,所述方法还包括:
确定历史音频数据的GOP分数;
设置至少一个打分宽松度阈值,将所述历史音频数据的GOP分数大于或等于所述打分宽松度阈值的音频数据作为正样本;将所述历史音频数据的GOP分数小于所述打分宽松度阈值的音频数据作为负样本;
根据所述正样本和所述负样本对第一预设网络进行训练得到概率预测模型。
可选的,所述根据所述GOP分数的正样本概率和预先建立的分段函数模型,确定所述待评测音频的目标评测值之前,所述方法还包括:
获取所述待评测音频的打分宽松度阈值;
根据所述待评测音频的打分宽松度阈值,确定所述待评测音频的分段函数模型。
可选的,所述根据所述GOP分数的正样本概率和预先建立的分段函数模型,确定所述待评测音频的目标评测值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110549296.2/2.html,转载请声明来源钻瓜专利网。