[发明专利]音频分类方法、电子设备以及存储介质有效

申请号：	202110537040.X	申请日：	2021-05-18
公开（公告）号：	CN112989106B	公开（公告）日：	2021-07-30
发明（设计）人：	马路;杨嵩	申请（专利权）人：	北京世纪好未来教育科技有限公司
主分类号：	G06F16/65	分类号：	G06F16/65;G06N3/04;G06N3/08
代理公司：	北京北汇律师事务所 11711	代理人：	李英杰
地址：	100086 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频分类方法电子设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音频分类方法、电子设备以及存储介质，其中，该方法包括：确定待处理音频信号；将待处理音频信号输入至编码器；将编码器输出的音频信号输入至瓶颈层；将瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入尺度特征提取模块的音频信号的不同尺度特征；将不同尺度特征输入至分类器，获取对音频的分类结果。解决了现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图进行音频分类，导致分类模型较大，且准确率和实时率不高的问题。在本发明中利用堆叠的一维膨胀卷积网络提取输入音频的多尺度特征，并利用不同尺度特征进行音频分类，模型结构小，且具有较高的准确率和实时率。

技术领域

本发明涉及音频分类技术领域，具体涉及一种音频分类方法、电子设备以及存储介质。

背景技术

音频分类的目的在于将音频分成多个类别，例如：音乐声、人声、静音、背景音等。音频分类是很多音频或语音技术的前提，如：音频分割，需要将连续输入的音频流按照音频类别分割成多个音频段；语音活度检测，需要判决连续输入的音频流是否为人声。

音频分类是很多音频和语音处理的基础技术，分类的正确率和实时率直接影响后面音频分割和语音识别的准确率以及实时率。常规的音频分类模型多借鉴图像分类方法，采用时频二维卷积模型，首先将时域音频通过短时傅里叶变换为时频域的二维语谱图，之后采用二维卷积提取高维特征。由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图，因此真实音频中一部分信息会丢失，并且在较高准确率情况下实时率不高。

针对现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图，导致分类模型较大，且准确率和实时率不高的问题，还未提出有效的解决方案。

发明内容

有鉴于此，本发明实施例提供了一种音频分类方法、电子设备以及存储介质，以解决现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图进行音频分类，导致分类模型较大，且准确率和实时率不高的问题。

为此，本发明实施例提供了如下技术方案：

本发明第一方面，提供了一种音频分类方法，包括：

确定待处理音频信号；

将所述待处理音频信号输入至编码器；

将所述编码器输出的音频信号输入至瓶颈层；

将所述瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入多尺度特征提取模块的音频信号的不同尺度特征；

将所述不同尺度特征输入至分类器，获取对音频的分类结果。

可选地，所述方法还包括分类器，

所述分类器包含：注意力机制层、长短时记忆网络层、线性层以及Softmax层；