[发明专利]基于伪彩色时频图像及卷积网络的环境声音识别方法有效

申请号：	202011299987.3	申请日：	2020-11-18
公开（公告）号：	CN112652326B	公开（公告）日：	2023-07-04
发明（设计）人：	王靖宇;张彦华;苏雨;张科;王霰禹;王林;马振宇;谢方园;王红梅	申请（专利权）人：	西北工业大学
主分类号：	G10L25/30	分类号：	G10L25/30;G10L21/0216;G10L21/0232;G06F18/24;G06F18/21;G06N3/0464;G06N3/08
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	康进兴
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于彩色图像卷积网络环境声音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，包括以下步骤：

步骤1：计算模态数为K时各模态信号u_k及相应的中心频率ω_k：

其中，f表示输入的声音信号，n表示迭代次数，τ为噪声容限，λ为拉格朗日乘子，ζ为无约束变分问题，{}表示集合；

步骤2：计算相邻模态信号中心频率的差分值

D_k＝ω_k+1(t)-ω_k(t) k＝1,...,K-1 (4)

λ_k＝D_k+1/D_k k＝1,...,K-2 (5)

其中，D_k为中心频率差值，λ_k中心频率差分值；

步骤3；确定最优分解个数K

满足终止条件时，最优分解个数K_best＝K-1；

步骤4去除噪声分量后计算各模态信号的时频分布：

其中，h(τ)为高斯核函数，表示对频率的二维卷积，imf_n为第n个模态分量信号，pwvd_n(t,f)为第n个IMF的PWVD时频图；

步骤5重构得到灰度时频图

步骤6引入阈值并进行归一化

PWVD(t,f)＝max[PWVD(t,f)-max(PWVD),-80dB] (9)

步骤7非线性变换得到伪彩色时频图

M_c(f,t)＝h_c(G(t,f)) c＝red,green,blue (11)

其中，M_c(f,t)为第c个单色图像，h_c为第c个单色图像的非线性映射函数；灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为：

参数{l₂,l₁,u₁,u₂}在三个通道下的值分别为：

得到伪彩色时频图后，利用Lancazos(a＝3)插值算法将时频图像大小调整为512×512；

步骤8：构建深度卷积神经网络。

2.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，所述步骤1中，

ζ公式及迭代终止条件为：

其中，α为二次惩罚因子，δ(t)为单位脉冲函数，j为虚数，*表示卷积运算，e为收敛条件，表示对t求偏导。

3.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，所述步骤8中，神经网络共包含26层，其中包含7层卷积层，9层激活层，7层池化层，3层全连接层，深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像，每一层卷积层都加入了ReLU激活函数和批标准化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011299987.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于伪彩色时频图像及卷积网络的环境声音识别方法有效

专利文献下载