[发明专利]一种基于卷积神经网络的室内声源区域定位方法有效
申请号: | 201810611930.9 | 申请日: | 2018-06-14 |
公开(公告)号: | CN109001679B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 孙昊;张晓萌;王硕朋;徐静;翟葆朔 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G01S5/20 | 分类号: | G01S5/20 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 胡安朋 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明一种基于卷积神经网络的室内声源区域定位方法,涉及应用声波确定信号源的位置的技术,通过将声源信号转化成语谱图的形式并输入到卷积神经网络中,实现室内单声源的区域定位,步骤是:建立信号模型;在建立信号模型的基础上,选取数据样本;将麦克风M |
||
搜索关键词: | 一种 基于 卷积 神经网络 室内 声源 区域 定位 方法 | ||
【主权项】:
1.一种基于卷积神经网络的室内声源区域定位方法,其特征在于具体步骤如下:第一步,建立信号模型:建立信号模型的详细过程是,在非结构化的室内环境中,在二维空间内设置一个单一固定声源s(t),对于由M=4个麦克风组成的阵列,则第i个麦克风接收到的声音信号为如下公式(1)所示:xi(t)=αis(t‑τi)+ni(t) i=1,2,...,M (1),公式(1)中,xi(t)表示第i个麦克风接收到的声音信号,i表示第i个麦克风,αi和τi分别表示接收到声源的声音信号的幅度衰减因子和相对时延,ni(t)则是各种噪声信号的总和,设定声音信号与各麦克风接收到的噪声信号互不相关,各麦克风的噪声信号也不相关,实验数据在matlab环境下产生,模拟的是室内环境,各个麦克风之间与声源的距离不同,接收到的声音信号不仅存在相位差异,还存在声波在空气中传播造成的幅度衰减,这样通过如下公式(2)给各个麦克风接收到的声音信号一个5000点的随机延迟,t′=(rand×2‑1)×5000 (2),上述公式(2)中,t′表示随机延迟时间,rand表示产生(0~1)之间的均匀随机数,通过如下信噪比公式(3)对声音信号增加高斯白噪声,
上述公式(3)中,SNR表示声音信号的信噪比,
表示声源信号的能量;
表示噪声的能量,由于点声源的声音信号的能量与声源到接收点的距离的平方成反比,根据如下公式(4)构建声音能量的衰减模型,
上述公式(4)中,s表示距离d处麦克风接收到声音信号的能量,s0表示点声源处声音信号的能量,d是声源到接收点的距离,由此完成建立信号模型;第二步,在建立信号模型的基础上,选取数据样本:(2.1)测定待定位区域的面积,在二维空间下均匀布置1089个定位参考点;(2.2)在上述第二步的步骤(2.1)的待定位区域内设定四个声音采集点,分别放置麦克风M0、麦克风M1、麦克风M2和麦克风M3,设置为在二维坐标系下的麦克风阵列M0,M1,M2,M3,相邻麦克风的间距均为L=10.2m,麦克风M0为坐标原点,在麦克风阵列M0,M1,M2,M3所构成的方阵中均匀布置1089个参考点,在上述第一步中的在二维空间内设置的一个单一固定声源s(t)在任意位置处的参考点的坐标为(xi,yi)能够得到1089个数据样本,由此完成选取数据样本;第三步,将麦克风M0、麦克风M1、麦克风M2和麦克风M3所采集到的声音信号进行时频分析,并建立定位数据库:(3.1)对上述第二步的步骤(2.2)放置的麦克风M0、麦克风M1、麦克风M2和麦克风M3所采集到的声音信号进行时频分析,得到上述第二步中所布置的各个参考点的声音信号的语谱图样本,生成语谱图的操作如下:Ⅰ.由麦克风接收声音信号得到采样频率,Ⅱ.将这些声音信号放在数组中并计算长度,Ⅲ.对这些声音信号进行分帧加窗处理得到分帧数据,Ⅳ.对上述得到的分帧数据进行短时傅里叶变换,Ⅴ.生成语谱图;(3.2)将上述第二步的步骤(2.1)中的待定位区域分成九块子区域,并为上述第三步的步骤(3.1)得到的每块子区域的声音信号的语谱图样本制作标签,随机选取声音信号的语谱图样本的90%作为训练样本,在训练样本选定之后剩余的声音信号的语谱图样本的10%作为测试样本;由此完成定位数据库的建立;第四步,将构建好的定位数据库进行卷积神经网络的训练和实现基于卷积神经网络的室内声源区域定位:将上述第三步中构建好的定位数据库进行卷积神经网络的训练和实现基于卷积神经网络的室内声源区域定位,具体方法如下:(4.1)在Ubuntu上搭建Tensorflow深度学习框架;(4.2)建立卷积神经网络模型,具体方法如下:卷积神经网络模型有四个卷积层和四个池化层,最后通过softmax分类器和三个全连接层输出结果,该卷积神经网络的网络结构为:Conv1(5×5,32)+P1+Conv2(5×5,64)+P2+Conv3(3×3,128)+P3+Conv4(3×3,128)+P4+FC1(1024)+FC2(512)+FC3(9),其中Conv表示卷积层,P表示池化层,FC表示全连接层,括号内分别表示卷积核的大小和个数,全连接层括号内为神经元的个数,多个卷积层和池化层交替组合构成了特征提取阶段,卷积层各平面由公式(5)决定:
公式(5)中,
表示卷积层第l层第j个输出,Mj表示选择输入的特征图集合,l是当前层数,f是激活函数,
表示不同输入特征图对应的卷积核,
为输出特征图对应的加性偏置,采样层对上一层的特征图进行局部平均和二次特征提取,其各平面由公式(6)决定,
公式(6)中,
表示采样层第l层第j个输出,down(.)表示一个下采样函数,l是当前层数,f是激活函数,
表示输出特征图对应的乘性偏置,
为输出特征图对应的加性偏置,由此完成建立卷积神经网络模型,并将上述第三步中的步骤(3.1)得到的90%作为训练样本的每块子区域的声音信号的语谱图样本作为该建立的卷积神经网络的输入,得到训练样本训练初始化的卷积神经网络模型;(4.3)卷积神经网络的训练及测试:用上述第四步的步骤(4.2)的训练样本训练初始化的卷积神经网络模型进行卷积神经网络的训练,得到训练好的卷积神经网络模型;用上述第四步的步骤(4.3)训练好的卷积神经网络模型对上述第三步中的步骤(3.2)中的测试样本进行预测,进行卷积神经网络的测试,得到分类结果即室内待定位区域内的声源所属的区域位置,并通过tensorboard工具对最终的测试结果可视化;由此完成构建好的定位数据库进行卷积神经网络的训练和实现基于卷积神经网络的室内声源区域定位;由此最终实现基于卷积神经网络的室内声源区域定位。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810611930.9/,转载请声明来源钻瓜专利网。