[发明专利]一种多模态远程语音感知方法及装置有效
申请号: | 201910705872.0 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110444220B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 吴江南;顾冠杰;廉增辉;潘翔 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L21/0224;G10L21/0232;G10L21/028;G10L21/055;G10L25/45;G10L25/57;G10L15/22;G10L15/24;H04N7/14;H04N7/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 应孔月 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 远程 语音 感知 方法 装置 | ||
本发明公开了一种多模态远程语音感知方法及装置。所述感知方法包括:利用矩形麦克风阵列和摄像头,采集语音和视频信号。对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位。利用声源方位初步信息,驾驶摄像头正对声源方向。基于初始视频数据建立背景模型,进行前景检测和背景更新。将前景对应的高精度方位参数传输给波束形成模块,波束形成在该方位的输出,即增强的语音信号。
技术领域
本发明涉及多模态联合的传感器采集和语音增强领域,尤其涉及一种基于矩形麦克风面阵和摄像头联合采集的多模态远程语音感知方法及装置。
背景技术
近年来远程视频监控技术在人们生活中有着越来越广泛的应用。街道上的闯红灯照相仪、办公室里的监控摄像头以及各种红外探测仪和热成像技术等,尤其是在远程监控应用方面,只需要一个摄像头,人们就可以随时随地在手机等智能设备上查看远程监控画面,给人们生活带来了极大的便利。利用麦克风处理音频信号已经在手机和个人电脑领域有了一定的应用。在这些应用实例中,一般采用的是单个或者两个麦克风组成的系统。近年来,在国外,亚马逊、微软、谷歌等公司已经发布了基于麦克风阵列技术的产品。国内,讯飞、云知声、声智科技等公司也提出了成熟的麦克风硬件方案。这些产品的拾音和作用距离在10m以内,主要面向的是近场语音应用场景。然而,传统的近场语音应用已经渐渐无法满足人们的需求。当场景切换到室外、机器人、车载或者监控领域时,需要更为复杂的语音控制智能设备,因此,麦克风阵列技术成为了远场语音感知的核心。
但是远程视频只能对图像进行处理而无法感知声音,这俨然已不能满足人们的需求。同时,传统的语音感知技术,在近距离时,其语音识别的识别率已达到身份识别的水准,但是在远距离情况下,其效果大幅度下降,原因是接收的语音信号的信噪比低,存在干扰信号。
目前已有的远程语音定位技术存在的问题如下:
(1)压缩传感技术用于方位估计可以提高方位精度,但是需要高信噪比;
(2)卷积波束形成方法用于小传感器阵列,在提高方位估计精度的同时也需要较高的信噪比;
(3)大尺度麦克风阵列可以同时满足高信噪比和窄波束,但在工程使用上非常麻烦,一方面占有较大的空间位置,另一方面,多通道数据处理需要强大功能的信号处理机。
为了解决远程语音定位不够精准的问题,研究人员提出了利用图像高分辨能力的方法提高定位精度,获取声源有效位置,再结合麦克风阵列,利用波束形成算法增强语音、消除噪声,提高语音的质量。
发明内容
针对现有技术存在的问题,本发明提供一种多模态远程语音感知方法及装置,利用矩形麦克风阵列和摄像头联合的检测方式,搭建采集处理系统,同时利用波束形成、自适应背景建模及前景提取、音视频联合的方法,获取远程语音信号并进行语音增强,最终实现音视频联合对远程语音信号的感知。
本发明的目的是通过以下技术方案来实现的:一种多模态远程语音感知方法,包括以下步骤:
步骤1:利用矩形麦克风阵列和摄像头,采集语音和视频信号;
步骤2:对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位;
步骤3:根据粗略的声源方位,驾驶摄像头正对声源方向;
步骤4:基于初始数据建立背景模型,进行前景提取和背景模型自适应更新;
步骤5:将前景空间位置映射到高精度角度方位,将这个高精度方位参数传输给波束形成模块,波束形成在这个方位的输出就是增强的语音信号。
进一步的,所述步骤2具体包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910705872.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:选择第一编码演算法或第二编码演算法的装置与方法
- 下一篇:一种多路语音系统