[发明专利]一种声源定位方法及系统在审
申请号: | 202110380452.7 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113093106A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 郝昊;李骊 | 申请(专利权)人: | 北京华捷艾米科技有限公司 |
主分类号: | G01S5/20 | 分类号: | G01S5/20 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈志海 |
地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声源 定位 方法 系统 | ||
本发明提供了一种声源定位方法及系统,该方法为:采集待处理图像和音频信号;获取待处理图像中人物的嘴部坐标;根据嘴部坐标,确定嘴部与音频采集设备之间的目标俯仰角;若确定音频信号为活动语音信号,利用目标俯仰角确定音频采集设备对应的时延;根据时延,对音频信号进行声源定位,得到最终的声源定位结果。本方案中,通过采集得到的待处理图像中人物的嘴部坐标,确定人物的嘴部与音频采集设备之间的目标俯仰角。当采集的音频信号为活动语音信号时,根据目标俯仰角确定音频采集设备对应的时延,对音频信号进行声源定位得到最终的声源定位结果,确定音频信号为活动语音信号后,结合人物的嘴部位置和音频信息进行声源定位,提高声源定位的精度。
技术领域
本发明涉及声源定位技术领域,具体涉及一种声源定位方法及系统。
背景技术
随着科学技术的发展,智能电子设备的功能越来越齐全,其中较为常见的功能为对当前空间内的对象进行声源定位。
目前进行声源定位的方式为:通过平面麦克风阵列采集音频信号,并对音频信号进行处理得到各个方位角度对应的能量,将能量最大的方位角度作为定位结果。但是在复杂声学环境下,前述声源定位方式无法区分所采集的音频信号为人声还是强噪声,处理音频信号所得到的定位结果并不能准确的指示说话人的位置,定位精度较低。
发明内容
有鉴于此,本发明实施例提供一种声源定位方法及系统,以解决现有声源定位方式存在的定位精度低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种声源定位方法,所述方法包括:
采集待处理图像和音频信号;
获取所述待处理图像中人物的嘴部坐标;
根据所述嘴部坐标,确定所述人物的嘴部与音频采集设备之间的目标俯仰角;
若确定所述音频信号为活动语音信号,利用所述目标俯仰角确定所述音频采集设备对应的时延;
根据所述时延,对所述音频信号进行声源定位,得到最终的声源定位结果。
优选的,所述根据所述嘴部坐标,确定所述人物的嘴部与音频采集设备之间的目标俯仰角,包括:
根据所述嘴部坐标,以图像采集设备对应的第一坐标系为基准,确定所述人物的嘴部与所述图像采集设备之间的初始俯仰角;
根据预设的俯仰角对应关系,以所述音频采集设备对应的第二坐标系为基准,将所述初始俯仰角转换为所述人物的嘴部与音频采集设备之间的目标俯仰角,所述俯仰角对应关系包含:以所述第一坐标系为基准的俯仰角和以所述第二坐标系为基准的俯仰角之间的对应关系。
优选的,所述音频采集设备为麦克风阵列,所述利用所述目标俯仰角确定所述音频采集设备对应的时延,包括:
利用所述目标俯仰角,结合计算麦克风阵列的各个阵元的时延τn,n为所述麦克风阵列的第n个阵元,(xn,yn)为第n个阵元在所述音频采集设备对应的第二坐标系中的坐标,θ为所述音频信号与所述第二坐标系的x轴的夹角,φ'为所述目标俯仰角,c为声速。
优选的,所述根据所述时延,对所述音频信号进行声源定位,得到最终的声源定位结果,包括:
根据所述时延,结合音频波束形成测向法,对所述音频信号进行时延补偿,向当前空间内的各个方向进行固定波束形成,确定波束输出功率最大的方向为最终的声源定位结果。
优选的,所述获取所述待处理图像中人物的嘴部坐标,包括:
对所述待处理图像进行人脸识别,获取所述待处理图像中人物的人脸关键点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华捷艾米科技有限公司,未经北京华捷艾米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110380452.7/2.html,转载请声明来源钻瓜专利网。