[发明专利]一种多模态远程语音感知方法及装置有效
申请号: | 201910705872.0 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110444220B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 吴江南;顾冠杰;廉增辉;潘翔 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L21/0224;G10L21/0232;G10L21/028;G10L21/055;G10L25/45;G10L25/57;G10L15/22;G10L15/24;H04N7/14;H04N7/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 应孔月 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多模态远程语音感知方法及装置。所述感知方法包括:利用矩形麦克风阵列和摄像头,采集语音和视频信号。对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位。利用声源方位初步信息,驾驶摄像头正对声源方向。基于初始视频数据建立背景模型,进行前景检测和背景更新。将前景对应的高精度方位参数传输给波束形成模块,波束形成在该方位的输出,即增强的语音信号。 | ||
搜索关键词: | 一种 多模态 远程 语音 感知 方法 装置 | ||
【主权项】:
1.一种多模态远程语音感知方法,其特征在于,包括以下步骤:步骤1:利用矩形麦克风阵列和摄像头,采集语音和视频信号;步骤2:对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位;步骤3:根据粗略的声源方位,驾驶摄像头正对声源方向;步骤4:基于初始数据建立背景模型,进行前景检测和背景模型自适应更新;步骤5:将前景对应的高精度方位参数传输给波束形成模块,波束形成在这个方位的输出就是增强的语音信号。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910705872.0/,转载请声明来源钻瓜专利网。
- 上一篇:选择第一编码演算法或第二编码演算法的装置与方法
- 下一篇:一种多路语音系统