[发明专利]一种基于深度学习的多语音源计数和定位方法有效

申请号：	202110379637.6	申请日：	2021-04-08
公开（公告）号：	CN113111765B	公开（公告）日：	2023-04-18
发明（设计）人：	潘翔;张敏	申请（专利权）人：	浙江大学
主分类号：	G06F18/2431	分类号：	G06F18/2431;G06F18/2415;G06F18/213;G06F18/15;G06N3/0464;G06N3/047;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习语音计数定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的多语音源计数和定位方法，其特征在于，包括以下步骤：

步骤1：构造室内混响环境下含有多个语音源的训练数据，即根据房间冲激响应模型构造麦克风阵列接收到的声源信号；

步骤2：提取语音信号特征，即提取相位变换加权的广义互相关系数和对数梅尔谱；

步骤3：训练神经网络，对声源个数估计和到达角DOA估计做多任务学习训练；具体为：将提取的特征输入到深度神经网络进行训练；输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块，将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元GRU，最后分为两路输出；一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值其中全连接层的神经元个数为N₁；另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值其中全连接层的神经元个数为N₂；

声源个数估计问题作为多分类模型求解，每个个数取值作为一个类别，采用交叉熵作为损失函数，计算公式如下：

其中p(x_n)表示属于第n个类别的真实概率，表示预测属于第n个类别的概率；

DOA估计问题作为回归模型求解，使用高斯函数设计DOA标签，计算公式如下：

其中y(i)代表θ_i角度的标签值，K代表声源个数，代表第j个声源的真实角度值，θ_i代表麦克风阵列可以有效估计的到达角范围内的任意角度值，σ是控制高斯函数的参数；

DOA估计问题采用均方误差作为损失函数，计算公式如下：

其中表示角度值为θ_n时的预测值；

声源个数估计和DOA估计以多任务学习模型的方式进行训练，整个深度神经网络模型的损失函数计算公式如下：

J＝αJ₁+J₂

其中α是一个常量系数，范围大小0＜α≤1；在最小化损失函数的准则下进行迭代训练，最终得到训练好的网络模型；

步骤4：输出声源个数估计值和DOA估计值，具体如下：对麦克风阵列接收到的声源信号进行特征提取，将提取的特征输入到步骤3训练得到的网络模型，得到声源个数预测值和DOA预测值

的最大值对应的类别即为声源个数估计值

对进行峰值检测，前个最大峰值出现的位置即为DOA估计值。