[发明专利]基于伪彩色时频图像及卷积网络的环境声音识别方法有效
| 申请号: | 202011299987.3 | 申请日: | 2020-11-18 |
| 公开(公告)号: | CN112652326B | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 王靖宇;张彦华;苏雨;张科;王霰禹;王林;马振宇;谢方园;王红梅 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L21/0216;G10L21/0232;G06F18/24;G06F18/21;G06N3/0464;G06N3/08 |
| 代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 康进兴 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 彩色 图像 卷积 网络 环境 声音 识别 方法 | ||
1.一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,包括以下步骤:
步骤1:计算模态数为K时各模态信号uk及相应的中心频率ωk:
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;
步骤2:计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t) k=1,...,K-1 (4)
λk=Dk+1/Dk k=1,...,K-2 (5)
其中,Dk为中心频率差值,λk中心频率差分值;
步骤3;确定最优分解个数K
满足终止条件时,最优分解个数Kbest=K-1;
步骤4去除噪声分量后计算各模态信号的时频分布:
其中,h(τ)为高斯核函数,表示对频率的二维卷积,imfn为第n个模态分量信号,pwvdn(t,f)为第n个IMF的PWVD时频图;
步骤5重构得到灰度时频图
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (9)
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f)) c=red,green,blue (11)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
参数{l2,l1,u1,u2}在三个通道下的值分别为:
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512;
步骤8:构建深度卷积神经网络。
2.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤1中,
ζ公式及迭代终止条件为:
其中,α为二次惩罚因子,δ(t)为单位脉冲函数,j为虚数,*表示卷积运算,e为收敛条件,表示对t求偏导。
3.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤8中,神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299987.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:蒸镀装置及蒸镀方法
- 下一篇:一种石墨柱用石墨粉自动上柱设备
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





