[发明专利]一种基于深度学习的多语音源计数和定位方法有效
申请号: | 202110379637.6 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113111765B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 潘翔;张敏 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F18/2431 | 分类号: | G06F18/2431;G06F18/2415;G06F18/213;G06F18/15;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语音 计数 定位 方法 | ||
本发明公开了一种基于深度学习的多语音源计数和定位方法。包括:根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号;对麦克风阵列信号进行特征提取,提取相位变换加权的广义互相关系数和对数梅尔谱;神经网络训练提取到的输入特征,对声源个数估计和到达角估计做多任务学习的训练;根据声源个数的估计值,对到达角估计预测值进行峰值检测,峰值出现的位置即为多个语音源的到达角估计值。本发明能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。
背景技术
准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中,利用说话人的位置知识来操控摄像机的转动,或通过波束形成实现对目标信号的增强,声源事件检测和跟踪,以及未知环境中的机器人移动等应用。在实际场景中,除了环境噪声和混响外,往往可能含有多个说话人,由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的,而语音信号是宽带非平稳信号且能量主要集中在低频成分,这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题,在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法,多数将多语音源问题当做多标签分类问题求解,通过神经网络得到声源出现在所划分的类别中的后验概率,最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关,而且需要知道声源数目,在实际应用中受到很多限制。
发明内容
针对现有技术存在的问题,本发明所要解决的问题是,提供一种基于深度学习的小尺度麦克风阵列定位算法,实现对多个语音源的计数和到达角估计。
本发明所采用的技术方案是:一种基于深度学习的多语音源计数和定位方法,该方法包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角(direction-of-arrival,DOA)估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。
进一步地,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作,表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
进一步地,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数(generalized correlation coefficient with phasetransform,GCC-PHAT),计算公式如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110379637.6/2.html,转载请声明来源钻瓜专利网。