[发明专利]一种基于几何约束全局相干场和视觉引导的说话人声源定位方法和系统在审
| 申请号: | 202310147501.1 | 申请日: | 2023-02-02 | 
| 公开(公告)号: | CN116087878A | 公开(公告)日: | 2023-05-09 | 
| 发明(设计)人: | 刘宏;李一迪;任家乐;王国权 | 申请(专利权)人: | 北京大学深圳研究生院 | 
| 主分类号: | G01S5/18 | 分类号: | G01S5/18;G06V40/16;G06V10/82;G06F30/27;G06N3/08;G06N3/0464;G10L25/30;G06F111/04 | 
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 | 
| 地址: | 518055 广东省深*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 几何 约束 全局 相干 视觉 引导 说话 人声 定位 方法 系统 | ||
1.一种基于几何约束全局相干场和视觉引导的说话人声源定位方法,其步骤包括:
采用相机几何模型提取几何约束全局相干场线索,以表示声源信号的空间特征;
根据与音频信号同步的视频帧的图片样本中的说话人位置标注,生成视觉引导的二值化伪标签;
采用卷积神经网络结合全连接网络构成声学网络,声学网络利用几何约束全局相干场线索生成声学位置图谱,计算声学位置图谱与生成的伪标签的均方误差来训练声学网络;
采用训练好的声学网络生成声学位置图谱,根据声学位置图谱中的峰值位置确定说话人声源的位置坐标。
2.如权利要求1所述的方法,其特征在于,所述采用相机几何模型提取几何约束全局相干场线索,包括:
根据相机的内参和外参构建相机几何模型;
在图像平面设置采样点,利用相机几何模型把二维采样点投影到三维空间,根据说话人所在房间的几何结构,去掉房间以外的三维采样点;
基于三维采样点计算全局相干场线索。
3.如权利要求2所述的方法,其特征在于,所述基于三维采样点计算全局相干场线索,其计算方式如下:
其中,r(p)表示p点的全局相干场系数,R为房间范围,表示相位变换加权广义互相关函数,M表示麦克风对的数量;计算所有三维采样点处的全局相干场系数,组成全局相干场线索。
4.如权利要求1所述的方法,其特征在于,所述根据与音频信号同步的视频帧的图片样本中的说话人位置标注,生成视觉引导的二值化伪标签,包括:根据图片样本中说话人的脸部标注框的参数,生成二维高斯分布,然后通过阶跃函数生成二值化的伪标签图。
5.如权利要求4所述的方法,其特征在于,按如下公式计算所述伪标签图:
其中,(x,y)是伪标签图上的坐标位置,是以μ为均值,以∑为协方差矩阵的二维高斯分布,ελ是阈值为λ的阶跃函数。
6.如权利要求1所述的方法,其特征在于,所述声学网络由卷积神经网络结合全连接网络构成,使用视觉引导的二值化伪标签作为监督信号,来估计声源的声学位置图谱。
7.如权利要求1所述的方法,其特征在于,所述采用训练好的声学网络生成声学位置图谱,根据声学位置图谱中的峰值位置确定说话人声源的位置坐标,包括:首先根据声学网络的步长调整声学位置图谱的大小,再在声学位置图谱周围填充零值,使声学位置图谱与输入图片大小一致,最后推导声学位置图谱中最大值所在的位置即为估计的说话人声源坐标。
8.一种基于几何约束全局相干场和视觉引导的说话人声源定位系统,其特征在于,包括:
全局相干场线索提取模块,用于采用相机几何模型提取几何约束全局相干场线索,以表示声源信号的空间特征;
伪标签生成模块,用于根据与音频信号同步的视频帧的图片样本中的说话人位置标注,生成视觉引导的二值化伪标签;
声学网络训练模块,用于采用卷积神经网络结合全连接网络构成声学网络,声学网络利用几何约束全局相干场线索生成声学位置图谱,计算声学位置图谱与生成的伪标签的均方误差来训练声学网络;
声源定位模块,用于采用训练好的声学网络生成声学位置图谱,根据声学位置图谱中的峰值位置确定说话人声源的位置坐标。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310147501.1/1.html,转载请声明来源钻瓜专利网。





