[发明专利]一种基于改进深度残差网络的城市声音分类方法在审
申请号: | 202111484910.8 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114242112A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 刘亚荣;黄海滨;黄飞扬;于顼顼 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/03;G10L25/18;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 网络 城市 声音 分类 方法 | ||
1.一种基于改进深度残差网络的城市声音分类方法,其特征在于,包括以下步骤:
步骤S1.数据预处理:将声音的振幅和频率图形化;
步骤S2.数据特征提取:对步骤S1中获得的数据提取音频特征并进行数据标准化处理,得到标准数据;
步骤S3.改进深度残差网络分类器:构建改进的深度残差网络分类器,将步骤S2中处理后的训练数据集送入设计的改进深度残差网络分类器模型,并对分类器进行训练,得到训练后的改进深度残差网络分类模型;
步骤S4.声音分类结果判定:将声音测试数据集送入训练后的改进深度残差网络声音分类器进行测试,得出声音分类结果;
所述步骤S1数据预处理包括如下步骤:
步骤S11:振幅图形化:
对振幅进行归一化处理,使其振幅的取值范围为[-1,1],表达式如公式(1)所示:
式中,x为归一化的值,xmax为所采集数据特征中最大的值,xmin为所采集数据特征中最小的值;
步骤S12:频率图形化:
频率图形化利用短时傅里叶变换进行处理,表达式如公式(2)所示
式中:h(τ-t)为分析窗函数,信号x(t)在时间t处的短时傅里叶变换就是信号乘上一个以t为中心的“分析窗”h(τ-t)后所作的傅里叶变换,x(t)乘以分析窗函数h(τ-t)等价于取出信号在分析时间点t附近的一个切片,对于给定时间t,STFT(t,f)可以看作是该时刻的频谱;
所述步骤S2数据特征提取包括提取音频特征S21和数据标准化S22;
所述提取音频特征S21主要提取声音信号的MFCC特征参数;
所述数据标准化主要完成数据的规范化S221和数据正规化S222:
所述步骤S221:数据规范化是对原始数据集进行线性变化,使结果映射到[0,1]区间且无量纲,具体按照公式(3)处理:
式中,(x1,x2,...,xn)为原始数据集,(y1,y2,...,yn)为规范化后的数据集,为原始数据集中最小的值,为原始数据集中最大的值;
所述步骤S222:数据正规化,将数据按照公式(4)进行处理:
式中,为原始数据集的平均值,S为原始数据集的方差;
所述步骤S3改进深度残差网络分类器包括以下步骤:
S31:构建改进深度残差网络模型如图2所示,具体包括如下步骤:
S311:使用LReLU作为激活函数,如图2Conv所示;
S312:连接到max-pooling池化层,如图2Pooling所示;
S313:构建3个改进残差模块,改进的核心部分是在残差模块的第二个卷积层之后添加了分支SENet结构,生成了对应通道的权重,最后通过与第二个卷积层的输出结果相乘,如图2改进残差堆叠块所示;
S314:构建全局平均池化,如图2GAP所示;
S32:将训练数据集送入改进深度残差网络分类器进行训练,得出改进深度残差网络分类器模型;
所述步骤S4声音分类结果判定包括以下几个步骤:
步骤S41:将测试数据集导入训练好的改进深度残差网络声音分类器进行预测,输出模型预测准确率;
步骤S42:根据准确率判断城市声音的类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111484910.8/1.html,转载请声明来源钻瓜专利网。