[发明专利]音频质量检测方法、装置、电子设备及存储介质在审
申请号: | 202110310517.0 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113077821A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 陈婷;田大有;梁爽;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/51;G10L25/03;G10L25/21;G10L15/26;H04M3/51 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;杨毅玲 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 质量 检测 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能技术领域,提供一种音频质量检测方法、装置、电子设备及存储介质,所述方法包括:解析音频质量检测请求获取第一音频进行预处理得到第二音频;从第二音频中提取多个音频特征值和多个音质特征值;对多个音频特征值和多个音质特征值进行异常检测得到异常检测结果;根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和异常检测结果确定第二音频的目标异常检测结果。本发明通过从音频特征和音质特征两个维度对第二音频进行质量检测,排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率。此外,本发明还涉及区块链技术领域,第一音频存储于区块链节点中。
技术领域
本发明涉及人工智能技术领域,具体涉及一种音频质量检测方法、装置、电子设备及存储介质。
背景技术
目前语音合成技术(TTS,Text To Speech)已经在在电话客服,语音机器人,智能应答等领域得到越来越广泛的应用,经由神经网络学习实现的TTS技术,在神经网络的训练过程中,选取清晰、发音稳定、音质清晰的音频作为训练数据尤为重要,现有技术主要由人工进行听检、抽检进行音频检测,获取训练数据。
然而,由于不同检查者的听感不同、标准不同,容易引起检测出的音频文件的效果参差不齐的问题,导致音频质量检测的准确率和效率低下。
因此,有必要提供一种可以快速准确的检测音频质量的方法。
发明内容
鉴于以上内容,有必要提出一种音频质量检测方法、装置、电子设备及存储介质,通过从音频特征和音质特征两个维度对所述第二音频进行质量检测,排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率。
本发明的第一方面提供一种音频质量检测方法,所述方法包括:
解析客户端发送的音频质量检测请求获取第一音频;
对所述第一音频进行预处理得到第二音频;
从所述第二音频中提取多个音频特征值和多个音质特征值;
对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果;
根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果。
可选地,所述对所述第一音频进行预处理得到第二音频包括:
对所述第一音频进行降噪处理,得到降噪后的第一音频;
对所述降噪后的第一音频进行语音活性检测得到第二音频。
可选地,所述对所述降噪后的第一音频进行语音活性检测得到第二音频包括:
检测所述降噪后的第一音频中的每个句子的音频时长;
判断每个句子的音频时长是否满足预设的音频时长阈值要求;
当每个句子的音频时长满足所述预设的音频时长阈值要求时,将所述第一音频中的每个句子作为第二音频;或者
当任意一个句子的音频时长不满足所述预设的音频时长阈值要求时,删除所述第一音频中的任意一个句子,保留所述第一音频中的其余句子作为第二音频。
可选地,所述从所述第二音频中提取多个音频特征值和多个音质特征值包括:
对所述第二音频的音频信号采用预加重滤波器进行处理得到目标音频信号;
将所述目标音频信号切分为多个短时帧;
对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧;
计算每个加窗后的短时帧傅里叶变换后的功率谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110310517.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车轮胎装卸设备
- 下一篇:一种炒菜机进菜装置用齿轮传动机构