[发明专利]一种音频处理方法、设备及计算机可读介质在审
申请号: | 201910236110.0 | 申请日: | 2019-03-27 |
公开(公告)号: | CN109859745A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 张晴晴;刘天宇;杨金富;罗磊;马光谦;汪洋 | 申请(专利权)人: | 北京爱数智慧科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/05;G10L25/60 |
代理公司: | 北京智沃律师事务所 11620 | 代理人: | 李笑丹 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频文件 音频信号 计算机可读介质 音频处理 预设条件 服务器资源 完整性检测 质量检测 数据量 申请 筛选 消耗 | ||
本申请涉及一种音频处理方法、设备及计算机可读介质,所述方法包括:接收待处理的音频文件;对所述音频文件中的音频信号进行完整性检测;若所述音频信号完整,对所述音频信号进行音频质量检测;若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。本申请实施例可以从音频信号层面确定音频完整性及音频质量,进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件,减少待识别音频文件的数据量,提高效率、降低服务器资源消耗。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种音频处理方法、设备及计算机可读介质。
背景技术
目前,目前语音识别技术所遇到的挑战:在低信噪比、有混响等真实条件下的识别性能;多人会话中的声源分离和识别;对方言或有口音语音的识别等。
在改进算法的同时,更需要大量的数据来支撑研究工作、提高模型性能。在语音采集中,如何筛选出符合要求的合格语音会极大的影响到采集系统的效率和成本。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种音频处理方法、设备及计算机可读介质。
第一方面,本申请提供了一种音频处理方法,包括:
接收待处理的音频文件;
对所述音频文件中的音频信号进行完整性检测;
若所述音频信号完整,对所述音频信号进行音频质量检测;
若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。
可选地,所述对所述音频文件中的音频信号进行完整性检测,包括:
对所述音频信号进行切音检测;
若所述音频信号不为切音,则对所述音频信号进行丢帧检测;
若所述音频信号未丢帧,则确定所述音频信号完整。
可选地,所述对所述音频信号进行切音检测,包括:
对所述音频信号进行端点检测;
若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值,确定所述音频信号为切音;否则,不为切音。
可选地,所述对所述音频信号进行丢帧检测,包括:
对所述音频信号中的多个采样点进行二进制编码转换,得到音频编码;
若所述音频编码中多个编码位的编码值为0且编码位的数量超过1个语音帧的长度,则确定所述音频信号丢帧。
可选地,所述对所述音频信号进行音频质量检测,包括:
对所述音频信号进行截幅检测;
若所述音频信号未截幅,则对所述音频信号进行信噪比检测;
若所述音频信号的信噪比超过预设合格阈值,则确定所述音频信号的音频质量满足预设条件。
可选地,所述对所述音频信号进行截幅检测,包括:
计算所述音频信号中幅值最大的N个采样点的均方差,所述N大于或者等于2;
若所述均方差大于或者等于预设截幅阈值,则确定所述音频信号未截幅。
可选地,所述对所述音频信号进行信噪比检测,包括:
计算所述音频信号中语音部分的语音功率和噪音部分的噪音功率;
基于所述语音功率和所述噪音功率计算所述音频信号的信噪比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱数智慧科技有限公司,未经北京爱数智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910236110.0/2.html,转载请声明来源钻瓜专利网。