[发明专利]一种音频信号处理的方法及装置有效
申请号: | 201911103069.6 | 申请日: | 2019-11-12 |
公开(公告)号: | CN110827798B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 盘子圣;丁宁 | 申请(专利权)人: | 广州欢聊网络科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L19/02;G10L25/03;G10L25/30;G10L25/45;G10L25/51;G06N3/04;G06N3/08 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富;朱彩银 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 信号 处理 方法 装置 | ||
本申请涉及一种音频信号处理的方法及装置,其中该方法包括:对待测音频进行预处理,获得多维梅尔频谱特征序列;将该多维梅尔频谱特征序列切片后输入已训练的音频识别模型,并获得该音频识别模型输出的各音频片段对应的预测概率,该预测概率为预测该音频片段存在指定类型的音频的概率,该音频片段具有指定时长,该指定类型的音频包括无具体语义的音频信号;根据获得的多个预测概率,生成二分类序列,其中,该二分类序列中各序列元素与指定时长的音频片段对应;根据该指定时长,从该二分类序列中确定该指定类型的音频处于该待测音频中的时间信息。本申请可以提高指定类型的音频的识别准确度,同时可以提升识别效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种音频信号处理的方法及装置。
背景技术
随着互联网技术的发展,信息的传播的方式和渠道发生显著变化。而网络上传播的信息种类很多,其中有可能会涉及色情影片的传播。因此,为了净化网络环境,需要对传播的信息进行审核。
例如,对于网上发布的音频节目,可以通过语音识别算法将音频转换成文字内容来进行涉黄识别,但音频节目中还有很多是没有语义信息的,比如娇喘,从而导致漏检,识别的准确率不高。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频信号处理的方法及装置。
第一方面,本申请提供了一种音频信号处理的方法,所述方法包括:
对待测音频进行预处理,获得多维梅尔频谱特征序列;
将所述多维梅尔频谱特征序列切片后输入已训练的音频识别模型,并获得所述音频识别模型输出的各音频片段对应的预测概率,所述预测概率为预测该音频片段存在指定类型的音频的概率,所述音频片段具有指定时长,所述指定类型的音频包括无具体语义的音频信号;
根据获得的多个预测概率,生成二分类序列,其中,所述二分类序列中各序列元素与指定时长的音频片段对应;
根据所述指定时长,从所述二分类序列中确定所述指定类型的音频处于所述待测音频中的时间信息。
可选地,在所述根据所述指定时长,从所述二分类序列中确定所述指定类型的音频所处的时间信息之前,所述方法还包括:
判断所述二分类序列是否存在符合预设修正规则的序列元素;
若是,则对所述序列元素进行修正。
可选地,所述判断所述二分类序列是否存在符合预设修正规则的序列元素,包括:
遍历所述二分类序列,若当前遍历到的序列元素的二分类值为第一预设值,则从当前元素的开始,读取连续N1个元素的二分类值,其中N1为正整数;
若N1个所述二分类值中存在M1个二分类值为第一预设值的元素,且所述M1个二分类值为第一预设值的元素不连续,或者,N1个所述二分类值中存在1个二分类值为第一预设值的元素,则读取所述连续N1个元素前后各N2个元素的二分类值,其中,1M1N1;
若读取的所述N1+2N2的元素的二分类值中,二分类值为第一预设值的元素的数量小于M2,则将判定当前元素符合预设修正规则,其中,M1M2;
所述对所述序列元素进行修正,包括:
将当前元素的二分类值设置为第二预设值。
可选地,所述对待测音频进行预处理,获得多维梅尔频谱特征序列,包括:
对所述待测音频按照指定分帧规则进行分帧,得到对应的音频帧序列;
对所述音频帧序列的各帧进行短时傅里叶变换,生成所述音频帧序列对应的幅度谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州欢聊网络科技有限公司,未经广州欢聊网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911103069.6/2.html,转载请声明来源钻瓜专利网。