[发明专利]一种基于深度学习的声源位置成像方法在审
| 申请号: | 202210373852.X | 申请日: | 2022-04-11 |
| 公开(公告)号: | CN115375920A | 公开(公告)日: | 2022-11-22 |
| 发明(设计)人: | 张春龙;廖前锋;韩孝武;王松;袁挺 | 申请(专利权)人: | 中国农业大学 |
| 主分类号: | G06V10/50 | 分类号: | G06V10/50;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G01S5/20 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 声源 位置 成像 方法 | ||
本发明公开一种基于深度学习的声源位置成像方法。本发明通过深度学习的方式从不同环境中学习声源的空间位置并形成声源位置成像图。以内存占用更小、复杂度更低的声图片作为深度学习网络的输入,以在声源平面内划分的网格的编号作为深度学习的输出构建数据集,并结合声图片的特点建立了融合先验信息的卷积神经网络。通过训练后的网络得到声源平面内每个编号对应的网格中存在声源的置信度形成声源位置成像图。本发明克服了常见声源定位方法对声音采集设备的依赖性强,对环境中噪声适应能力差,一些基于深度学习的声源位置成像方法的网络的输入的结构复杂且参数量大,声源位置成像图的直观性较差的问题。
技术领域
本发明涉及声源位置成像技术领域,特别是涉及一种基于深度学习的声源位置成像方法。
背景技术
随着大数据、人工智能等技术的快速发展,人们对声源位置成像方法的相关需求越来越多,其应用场景也越发广泛。目前,多用麦克风作为拾音器,并将多个麦克风组成特定形状的阵列,对声音进行空间域的滤波,最后得到声音在平面或者空间中的相对位置。基于麦克风阵列的声源定位技术在语音增强、噪声检测、智慧牧场等场景中都起着至关重要的作用。
现阶段声源定位方法按照其定位原理可分为以物理声场建模为基础的声源定位方法和基于数据驱动建模的声源定位方法。其中,前者主要包括:基于时延估计、基于高分辨率谱估计、基于可控波束形成的声源定位方法,后者主要是基于深度学习的声源定位方法。
基于可控波束形成的声源定位方法是目前常见的声源定位及声源位置成像的方法。扫描声源平面上各个点到各个麦克风之间的时延差,计算可控响应的功率,根据每个扫描点功率的差异,绘制热度图,并将其作为声源位置成像图,其中,功率最大的扫描点为声源位置点。这种声源位置成像方法需要计算每个麦克风的时延差,这对传感器以及采集卡的性能提出了较高的要求。扫描每个点会导致算法的时间复杂度偏大。该算法在定位前需确定声源频率,这也导致其受环境中噪声的影响较大。
基于深度学习的声源定位方法是一种基于数据驱动的声源位置估计方法,需要大量的数据训练从输入到输出的网络。输入和输出数据决定了模型的类型。当输出数据为坐标点时,声源定位模型为回归模型,这往往导致模型难以收敛且对采样数据要求较高。目前,在以分类模型基础的声源位置估计模型中大多以互相关函数、信号间的时间延迟、频谱图等作为模型的输入。这种模型输入数据的构建方法增大了算法的复杂度,但直接以麦克风阵列获得的电压信号作为模型的输入,将导致模型精度偏低。
基于深度学习的声源定位方法同样也受到深度网络结构的影响。目前,声源定位模型多采用图像分类领域中常用的网络结构,如AlexNet、GoogleNet、ResNet等。网络参数较多的网络对硬件的要求较高,网络参数较低的网络准确率相对较低。
发明内容
本发明的目的在于提供基于深度学习的声源位置成像方法,以解决上述背景技术中提出的现有的方法对声音采集设备的依赖性强,对环境中噪声的适应能力低,一些基于深度学习的声源位置成像方法神经网络的输入的结构较为复杂,声源位置成像图的直观性较差的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明提供了一套完整的基于深度学习的声源位置成像方法。在深度学习网络训练阶段。麦克风阵列采集到声音信号,对原始信号进行分帧、加窗、滤波处理,滤波后的阵列信号合成深度卷积神经网络的输入,即声图片,并对声源所在平面划分网格,以确定声源位置的编号,将此编号作为输出,对网络进行训练。当网络的预测准确率以及损失函数值降低到合适范围后,将网络用于声源位置的定位与成像,其中p(xi)表示真实概率分布,q(xi)表示预测概率分布。在进行声源位置定位与成像时,将麦克风阵列采集的阵列信号经过滤波处理,形成声图片,并用训练成熟的网络进行分类得到分类的置信度以及位置编号,最后将置信度作为热度值形成声源位置成像图。置信度其中xi,xj为网络最后一个全连接层的输出值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210373852.X/2.html,转载请声明来源钻瓜专利网。





