[发明专利]一种声源定位方法、装置、介质和设备在审
| 申请号: | 201911260783.6 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN111103568A | 公开(公告)日: | 2020-05-05 |
| 发明(设计)人: | 艾文;冯大航;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
| 主分类号: | G01S5/18 | 分类号: | G01S5/18;G06N3/04;G06N3/08 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 万晓君 |
| 地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 声源 定位 方法 装置 介质 设备 | ||
本发明涉及一种声源定位方法、装置、介质和设备。根据本发明实施例提供的方案,在进行声源定位时,可以利用麦克风阵列采集音频时域信号,转换为音频频域信号后,利用训练出的神经网络模型,对频率点进行筛选,确定出信噪比大于设定值的频率点,进而可以利用信噪比大于设定值的频率点进行声源定位。通过利用信噪比大于设定值的频率点进行声源定位,相对于现有技术中不对频率点进行筛选,将全部频率点用于声源定位的方案,利用信噪比较大的频率点进行声源定位,可以有效提高声源定位的精度。同时,利用少量的频率点进行声源定位,还可以有效降低声源定位的算法复杂度,保证声源定位的实时性。
技术领域
本发明涉及声源定位技术领域,特别涉及一种声源定位方法、装置、介质和设备。
背景技术
声源定位技术在当今生活的很多领域都有着很广泛并且极为重要的应用。比如,在视频会议系统中,语音识别技术和助听装置等等方面。
而随着“互联网+”和大数据时代的到来,智能终端的语音交互体验广受关注,三维立体声音在实时人机交互中占有重要地位,这对声源定位技术的准确性和实时性也提出了更高的要求。
但是目前的声源定位方法,准确性和实时性均有待提高。
发明内容
本发明实施例提供一种声源定位方法、装置、介质和设备,用于解决现有的声源定位方法准确性较低,且难以保证实时性的问题。
本发明提供了一种声源定位方法,所述方法包括:
利用麦克风阵列采集设定时长的音频时域信号;
将采集到的音频时域信号转换为音频频域信号;
利用训练出的神经网络模型,确定所述音频频域信号中信噪比大于设定值的频率点;
利用所述信噪比大于设定值的频率点进行声源定位;
其中,针对训练样本集中的每个音频频域信号,对预先建立的神经网络模型执行下述操作,获得训练出的神经网络模型:
将一个音频频域信号中每个频率点的能量作为神经网络模型的输入,获得神经网络模型输出的信噪比大于设定值的频率点;
将该音频频域信号中信噪比大于设定值的频率点与神经网络模型输出的信噪比大于设定值的频率点进行比对;
根据二者之间的误差,按照减小二者之间的误差的方式,对神经网络模型进行调整。
本发明还提供了一种声源定位装置,所述装置包括:
采集模块,用于利用麦克风阵列采集设定时长的音频时域信号;
转换模块,用于将采集到的音频时域信号转换为音频频域信号;
筛选模块,用于利用训练出的神经网络模型,确定所述音频频域信号中信噪比大于设定值的频率点;
定位模块,用于利用所述信噪比大于设定值的频率点进行声源定位;
其中,针对训练样本集中的每个音频频域信号,对预先建立的神经网络模型执行下述操作,获得训练出的神经网络模型:
将一个音频频域信号中每个频率点的能量作为神经网络模型的输入,获得神经网络模型输出的信噪比大于设定值的频率点;
将该音频频域信号中信噪比大于设定值的频率点与神经网络模型输出的信噪比大于设定值的频率点进行比对;
根据二者之间的误差,按照减小二者之间的误差的方式,对神经网络模型进行调整。
本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911260783.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空调用料预测方法、系统和存储介质
- 下一篇:一种大功率COB散热封装结构





