[发明专利]一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统有效

专利信息
申请号: 201910808413.5 申请日: 2019-08-29
公开(公告)号: CN110517705B 公开(公告)日: 2022-02-18
发明(设计)人: 刘宏;庞程;丁润伟;吴璐璐;孙永恒 申请(专利权)人: 北京大学深圳研究生院
主分类号: G10L25/30 分类号: G10L25/30;G10L25/51;G01S5/20
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 518055 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 神经网络 卷积 声源 定位 方法 系统
【说明书】:

发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。

技术领域

本发明属于信息技术领域,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及一种基于深度神经网络和卷积神经网络的级联双耳声源定位方法和系统。

背景技术

机器人听觉系统是一个能使机器人与人、机器人与外部世界更自然、方便、高效、友好、智能交互的方式之一。机器人听觉系统主要包括声源的定位与跟踪、语音增强、声源分离与分类、语音识别、说话人识别、语音情感识别等功能。其中,机器人听觉声源定位可以为其他语音信号处理任务提供辅助的空间信息,因此,是否能够进行准确的声源定位是机器人智能与否的重要标志之一。

声源定位,作为机器人听觉系统前端处理的一部分,对于友好的人机交互是不可缺少的。机器人听觉声源定位与跟踪是指利用搭载在机器人系统上的麦克风阵列定位出声源的相对位置,包括水平角、俯仰角和距离。通常来说,麦克风阵列声源定位因其可接受信号数量较多,往往可以取得更加鲁棒,更加准确的定位效果。但是,人类仅仅通过两只耳朵仍然可以准确、快速、鲁棒的定位声源。双耳声源定位是指仅仅利用搭载在机器人头部两侧的两个麦克风,结合耳廓的滤波特性,对声源进行定位。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,而且结合人耳耳廓的滤波效应克服水平方向上的前后向混淆问题。双耳声源定位因其麦克风数量较少,往往可以实时实现,在某些领域,尤其是涉及人类听觉的领域,例如:人形机器人,语音增强,助听器等,这种方法是不可被替代的。因此研究双耳声源定位十分有必要的。凭借双耳声源定位的诸多优点,其在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。

视频会议中,可以根据麦克风声源定位结果自动调整摄像机的位置,使其转向更感兴趣的说话人方向。智能监控中,同样可以根据声源方向调整摄像机方向,从而扩大视野区域,达到更好的监控。人机交互中,机器人头部主动对准说话人,更是一种友好的体现,可以使人机交流更友好。

声源位置信息在声源分离中也有广泛使用。语音分离来自于著名的‘鸡尾酒会’问题,是指人们可以在嘈杂的声音环境中,专注于某一个人说话的能力。该问题长久以来被认为是非常具有挑战性的问题。通过在语音分离中结合声源位置信息,有助于分离混叠声音,增加语音识别的精度。声源定位在语音识别领域也有广泛应用。对于高速行驶的车辆,为使车辆更好的接收来自驾驶员的语音操作命令,可以通过判断车内声源的方向,当有多人说话或噪声存在时,优先考虑来自驾驶员方向的声音。

现有的声源定位方法主要是传统的信号处理的方法,主要包括以下几个步骤:

1、语音数模转换,预滤波。首先将模拟信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,对于语音信号,往往滤除4k以上的信号部分,以防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。

2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。语音信号具有时变的特性,但是由于人体嘴部肌肉运动相对声音频率变化缓慢,因此认为语音信号在短时间内是稳定的,一般为10ms-30ms。因此对语音信号按照如上时间段进行分帧,例如20毫秒分一帧。为防止因分帧带来的一些问题,对分帧后的信号进行加窗处理。常用的窗函数有:矩形窗、汉宁窗、汉明窗等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910808413.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top