[发明专利]一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统有效
申请号: | 201910808413.5 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110517705B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘宏;庞程;丁润伟;吴璐璐;孙永恒 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/51;G01S5/20 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 卷积 声源 定位 方法 系统 | ||
1.一种基于深度神经网络和卷积神经网络的双耳声源定位方法,其特征在于,包括以下步骤:
1)对双耳声音信号提取双耳能量差和互相关函数;
2)将提取的双耳能量差和互相关函数输入结合深度神经网络和卷积神经网络的双耳声源定位网络,通过深度神经网络输出预测的声源的转向角类别,通过卷积神经网络输出预测的声源的前后向类别;
3)根据双耳声源定位网络中深度神经网络和卷积神经网络的输出结果进行整合判断,得到双耳声源定位结果;
所述结合深度神经网络和卷积神经网络的双耳声源定位网络在训练时,将定位空间在360度范围内按照转向角等间隔划分为72个不同方向,在72个不同方向进行训练;
所述结合深度神经网络和卷积神经网络的双耳声源定位网络的总损失函数是三个损失函数之和,所述三个损失函数为:DNN中的转向角分类损失函数、CNN中的前后向分类损失函数、DNN与CNN结合的网络中的损失函数;所述DNN与CNN结合的网络中的损失函数为联合互信息熵和自信息熵的角度损失函数:
其中,qo为真实声源方向,po为估计声源方向,Θ表示网络的参数,N表示转向角的数量,ε表示自信息熵的注意力权重;
在定位阶段,步骤2)中DNN的输出的最大值所对应的方向为初步的声源方向;步骤3)根据CNN的输出决定声音前后性,当DNN输出的前后性与CNN输出的前后性矛盾时,将DNN的输出翻折后的方向作为最终声源方向;
通过下式进行角度转化,得到所述最终声源方向:
其中,表示由整个神经网络模型输出的最终声源方向,θmax表示DNN网络对声源方向的判别结果。
2.根据权利要求1所述的方法,其特征在于,采用以下步骤准备所述结合深度神经网络和卷积神经网络的双耳声源定位网络的训练数据:
a)通过双耳冲激响应函数,结合语音数据库语音,添加噪声和混响模拟仿真真实情况下的双耳接收到的声音信号;
b)将双耳声音信号通过伽玛通滤波器处理,在每个频带上分别提取双耳能量差和互相关函数;
c)将提取出的互相关函数和双耳能量差进行组合,作为神经网络的输入。
3.根据权利要求2所述的方法,其特征在于,在训练阶段,所述结合深度神经网络和卷积神经网络的双耳声源定位网络共有三部分输出,分别为深度神经网络的72个角度输出,卷积神经网络的前后向输出,深度神经网络和卷积神经网络的组合输出的72个角度的后验概率输出。
4.根据权利要求1所述的方法,其特征在于,所述DNN的输入层包含1216个节点,输出层包含72个节点,分别代表着72个不同方向,隐藏层有三个,每个隐藏层有512个节点;所述CNN含有两个卷积层,分别包含512和1024个特征图,每个卷积层后接线性整流Rule激活函数和2*2下采样层;CNN和DNN在一个有72个节点的主输出层融合。
5.一种采用权利要求1~4中任一权利要求所述方法的基于深度神经网络和卷积神经网络的双耳声源定位系统,其特征在于,包括:
双耳线索提取模块,负责对双耳声音信号提取双耳能量差和互相关函数;
双耳声源定位网络模块,负责以所述双耳线索提取模块提取的双耳能量差和互相关函数为输入,通过深度神经网络输出预测的声源的转向角类别,通过卷积神经网络输出预测的声源的前后向类别;
决策模块,负责根据所述双耳声源定位网络模块中深度神经网络和卷积神经网络的输出结果进行整合判断,得到双耳声源定位结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910808413.5/1.html,转载请声明来源钻瓜专利网。