[发明专利]一种基于深度学习的声源位置成像方法在审
| 申请号: | 202210373852.X | 申请日: | 2022-04-11 |
| 公开(公告)号: | CN115375920A | 公开(公告)日: | 2022-11-22 |
| 发明(设计)人: | 张春龙;廖前锋;韩孝武;王松;袁挺 | 申请(专利权)人: | 中国农业大学 |
| 主分类号: | G06V10/50 | 分类号: | G06V10/50;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G01S5/20 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 声源 位置 成像 方法 | ||
1.一种基于深度学习的声源位置成像方法,其特征在于,包括以下步骤:
步骤1、确定声源所在空间平面声源位置成像的精度需求,从而对有限的声源平面进行网格划分,并对形成的网格依次编号;
步骤2、将声源置于声源平面内所有划分的网格的任意位置中,在不同的环境噪声中声源播放声音并用麦克风阵列采样,信号采集设备记录、存储阵列声音信号;
步骤3、对声音信号进行滤波、分帧、加窗预处理;
步骤4、将滤波后每一帧阵列信号合成声图片;
步骤5、以声图片作为深度学习网络的输入,以声源在声源平面的位置编号作为深度学习网络的输出,搭建融合先验信息的卷积神经网络;
步骤6、将声图片与其对应的位置编号划分训练集与测试集,用训练集对融合先验信息的卷积神经网络进行训练,损失函数值loss总体上呈现逐步下降的趋势,经过多次迭代后,损失值基本不再变化;在测试集上,网络的预测准确率达到声源定位的要求后停止训练,并保存最后一次迭代的网络参数;
步骤7、根据最后一次迭代的网络参数构建可用于声源位置成像的融合先验信息的卷积神经网络;使用麦克风阵列采集声源信号,对采集到的阵列声信号重复步骤2~4得到声图片并通过融合先验信息的卷积神经网络得到输出声源的位置编号与置信度;
步骤8、构建像素大小与声源平面网格个数相一致的矩阵,其中矩阵尺寸与声源平面横、纵两个维度的网格的数量一致,矩阵中每个位点的值gi=uint8(255*ci),ci是每个编号对应的置信度的值,uint8是指四舍五入取整并将数据结构调整为8位;此时的矩阵可转化为灰度图,也称为声源位置成像图。
2.根据权利要求1所述的一种基于深度学习的声源位置成像方法,其特征在于:步骤3中分帧时,两帧之间的帧移为帧长的一半,并且将麦克风阵列获得的多个通道信号作为一个整体同时分帧、加窗,滤波时,对一帧的每一个通道进行中值滤波。
3.根据权利要求1所述的一种基于深度学习的声源位置成像方法,其特征在于:步骤4中声图片的合成方法为:一帧的各个通道数据表示为fi,i=1,…,mic,mic是麦克风阵列的阵元个数;取一帧第一个通道前q个采样点的值,即f1(1:q),其中q=mic2,作为矩阵A的第一行,同样取这一帧第二个通道前q个采样点的值,即f2(1:q),作为矩阵A的第二行,依次取完这一帧mic个通道的前q个采样点后,继续以每个通道q个采样点为一组,置于矩阵A的后续行中,直至取完整一个帧长,此时帧长为q2/mic;这样形成一个大小为q×q的矩阵A.将A的数值归一化至0-255之间,可表示为其中A'表示归一化后的矩阵,max、min表示求最大、小值符号;此时矩阵A'可形成一张灰度,这张灰度图被定位为声图片。
4.根据权利要求1所述的一种基于深度学习的声源位置成像方法,其特征在于:步骤5中融合先验信息的卷积神经网络结构包含卷积层、池化层、全连接层,通过SoftMax函数获得声源位置编号;所述的声图片具有极强的纹理特征,计算其梯度直方图HOG特征向量作为模型的先验信息拼接至CNN网络得到的特征向量尾端;最后通过两层全连接并通过SoftMax函数,即得到声源在声源平面内的位置编号,其中C为最后一个全连接层向量的长度,fy为全连接层的输出值,为全连接层的输出值之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210373852.X/1.html,转载请声明来源钻瓜专利网。





