[发明专利]一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统在审
申请号: | 201910808412.0 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110501673A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 刘宏;庞程;丁润伟;杨冰;袁佩佩 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G01S5/22 | 分类号: | G01S5/22;G06F17/14;G06N3/04;G06N3/08 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 邱晓锋<国际申请>=<国际公布>=<进入 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时频 双耳 声源 卷积神经网络 神经网络 俯仰角 转向角 有效地 线索 噪声 空间方向 声源定位 双耳信号 有效融合 鲁棒性 共享 多帧 建模 可用 场景 融合 输出 学习 | ||
本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。
技术领域
本发明属于机器人双耳听觉信号处理领域,具体涉及一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。
背景技术
声源定位是实现自然、友好人机交互的一项关键技术,通过定位出外界声源相对于机器人的方位,可以让机器人像人一样判别出声音的源头,提高机器人与外界交互的能力。基于双耳听觉的声源定位是声源定位技术发展的一个重要分支。该技术充分利用了双麦克风的易搭载性及耳廓的滤波特性,不仅拥有双麦克风简易的阵列结构,又结合了人耳听觉特性,从结构上可克服双麦克风定位的前后向歧义性。该技术有着广泛的实际应用,如智能监控、人机交互、助听器语音增强、视频会议、虚拟现实等。
基于双耳听觉的声源定位研究起始于一百年前,最早开始是研究人体心理感官对不同方向声音处理方式,所以最早应属于声学或者心理学范畴。学者Rayleigh在大量试验的基础上提出了“双元学说理论”,并认为双耳时间差和双耳能量差是声源定位的至关重要的定位线索。上世纪80年代,Lyon提出了一个双耳定位的计算模型,即耳廓模型(cochlearmodel),为基于双耳麦克风的声音定位开启了一个新的视角。1992年,随着对人耳的几何形状和对双耳定位影响研究的不断深入,头相关传递函数(Head-related TransferFunction,HRTF)概念被提出,耳廓、头部、耳道、肩膀和躯体等因素都会影响HRTF。同时,谱线索被认为是头相关传递函数HRTF表达声源位置的一个重要因素。从此,基于头相关传递函数的双耳定位方法成为主流,而测量HRTF是机器人学习声学环境的难点和核心,因为HRTF代表了声源到机器人声学传感器这个复杂系统的系统传递函数,从中可以提取出表征声源方位的从声源传播到双耳的时延和能量信息。近年来,针对头相关传递函数HRTF模拟声源到麦克风传播过程的幅度和时间变化特性,许多基于HRTF特征的双耳定位方法被提出应用于声源定位中。目前,国内外主流研究机构包括法国国家信息与自动化研究所、伦敦玛丽王后大学智能传感中心、北京大学、中国科学院、清华大学等。
为了提升基于双耳麦克风的声源定位算法在不同机器人听觉系统上的适应性,同时在不同机器人平台上易于搭载并且实现实时的声源定位,机器人的双耳麦克风系统需要尽量模拟人耳生理结构,其麦克风间距也需符合大量生物统计得到的双耳平均尺寸、耳廓拓扑结构尽量规则且严格对称。由于双耳声源定位只利用两个麦克风的信息,相比于基于麦克风阵列的声源定位,定位的算法复杂度可以有效降低从而保证定位系统的实时性。然而,双耳声源定位可利用的麦克风信号信息相对较少,实现鲁棒精确的定位具有一定的挑战。为了提高双耳声源定位线索提取的精确度和鲁棒性,双耳麦克风需要精确的拓扑结构,同时也可以提高机器人的类人性。同时,在真实的人机交互场景中,周围环境的噪声会给机器人的声源定位性能带来很大的挑战,这对双耳声源定位的实用化提出了要求。
发明内容
本发明针对复杂噪声场景下的声源空间方向估计,提出了一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统。
本发明采用的技术方案如下:
一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,包括以下步骤:
1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910808412.0/2.html,转载请声明来源钻瓜专利网。