[发明专利]一种基于深度学习的多语音源计数和定位方法有效
申请号: | 202110379637.6 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113111765B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 潘翔;张敏 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F18/2431 | 分类号: | G06F18/2431;G06F18/2415;G06F18/213;G06F18/15;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语音 计数 定位 方法 | ||
1.一种基于深度学习的多语音源计数和定位方法,其特征在于,包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角DOA估计做多任务学习训练;具体为:将提取的特征输入到深度神经网络进行训练;输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元GRU,最后分为两路输出;一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值其中全连接层的神经元个数为N2;
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
其中p(xn)表示属于第n个类别的真实概率,表示预测属于第n个类别的概率;
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
其中y(i)代表θi角度的标签值,K代表声源个数,代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数;
DOA估计问题采用均方误差作为损失函数,计算公式如下:
其中表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1;在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型;
步骤4:输出声源个数估计值和DOA估计值,具体如下:对麦克风阵列接收到的声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值和DOA预测值
的最大值对应的类别即为声源个数估计值
对进行峰值检测,前个最大峰值出现的位置即为DOA估计值。
2.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作,表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
3.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数GCC-PHAT,计算公式如下所示:
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110379637.6/1.html,转载请声明来源钻瓜专利网。