[发明专利]基于位置编码卷积神经网络的声音定位识别方法及装置在审
| 申请号: | 202111654890.4 | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114420150A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 刘峰;李岱徽;陈亮;沈同圣;赵德鑫;丁昊 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
| 主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/18;G10L25/30;G10L25/51;G06N3/08;G06N3/04 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙 |
| 地址: | 100071 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 位置 编码 卷积 神经网络 声音 定位 识别 方法 装置 | ||
本发明提供一种基于位置编码卷积神经网络的声音定位识别方法及装置,该方法包括:将目标声源信号输入多任务模型中的编码模型,得到目标声源信号的编码结果;将目标声源信号和编码结果输入多任务模型中的特征提取模型,得到目标声源信号的特征向量;将目标声源信号的特征向量输入多任务模型中的解码模型,得到目标声源信号的解码结果;将目标声源信号的解码结果输入多任务模型中的定位识别模型,得到目标声源信号的定位结果和识别结果。本发明实现消除特征向量中的时间位置信息干扰,从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征,并充分考虑定位任务和识别任务之间的相关性和差异性,有效提高目标声源信号的定位精度和识别精度。
技术领域
本发明涉及音频处理技术领域,尤其涉及一种基于位置编码卷积神经网络的声音定位识别方法及装置。
背景技术
声音事件定位和识别任务是对连续音频信号中连续或间断随机发生的各类声音事件进行有效的音源定位和音源的类别识别。近年来,以深度学习为代表的人工智能技术在各个领域都得到广泛应用,在音频信号处理领域依然不例外。
目前,传统卷积神经网络作为一种表征能力极强的深度神经网络,其被集成于各类音频信号处理算法。基于卷积神经网络的声音事件定位和识别算法中,传统卷积神经网络被广泛运用于音频信号处理的特征提取阶段。由于传统卷积神经网络具备一定的位移不变性,各类声音事件的特征可以被较为有效的提取。
虽然,现有技术中采用了传统卷积神经网络对声音事件进行定位和识别,表现出了优良的性能。但是,由于传统卷积神经网络对相对位置信息的保留能力较差,导致传统卷积神经网络提取的特征中无法有效剔除声音事件发生的时间位置信息干扰,导致传统卷积神经网络提取的特征存在时间位置信息干扰,从而难以保证声音事件定位结果和识别结果的准确性。
发明内容
本发明提供一种基于位置编码卷积神经网络的声音定位识别方法及装置,用以解决现有技术中传统卷积神经网络提取的特征存在时间位置信息干扰,导致声音事件定位结果和识别结果不准确的缺陷,实现对声音事件进行准确定位和识别。
本发明提供一种基于位置编码卷积神经网络的声音定位识别方法,包括:
将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;
将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;
将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;
将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;
其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,所述特征提取模型包括第一子特征提取模型和第二子特征提取模型,所述特征向量包括第一子特征向量和第二子特征向量;
相应地,所述将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量,包括:
将所述目标声源信号和所述编码结果输入所述第一子特征提取模型,得到所述目标声源信号的第一子特征向量,将所述目标声源信号和所述编码结果输入所述第二子特征提取模型,得到所述目标声源信号的第二子特征向量;
其中,所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特征,所述第二子特征提取模型用于提取与所述目标声源信号的识别结果相关的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111654890.4/2.html,转载请声明来源钻瓜专利网。





