[发明专利]一种多模态远程语音感知方法及装置有效

申请号：	201910705872.0	申请日：	2019-08-01
公开（公告）号：	CN110444220B	公开（公告）日：	2023-02-10
发明（设计）人：	吴江南;顾冠杰;廉增辉;潘翔	申请（专利权）人：	浙江大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0216;G10L21/0224;G10L21/0232;G10L21/028;G10L21/055;G10L25/45;G10L25/57;G10L15/22;G10L15/24;H04N7/14;H04N7/18
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	应孔月
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种多模态远程语音感知方法及装置。所述感知方法包括：利用矩形麦克风阵列和摄像头，采集语音和视频信号。对目标语音信号利用波束形成进行初步到达角估计，以获得粗略的声源方位。利用声源方位初步信息，驾驶摄像头正对声源方向。基于初始视频数据建立背景模型，进行前景检测和背景更新。将前景对应的高精度方位参数传输给波束形成模块，波束形成在该方位的输出,即增强的语音信号。
搜索关键词：	一种多模态远程语音感知方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种多模态远程语音感知方法，其特征在于，包括以下步骤：步骤1：利用矩形麦克风阵列和摄像头，采集语音和视频信号；步骤2：对目标语音信号利用波束形成进行初步到达角估计，以获得粗略的声源方位；步骤3：根据粗略的声源方位，驾驶摄像头正对声源方向；步骤4：基于初始数据建立背景模型，进行前景检测和背景模型自适应更新；步骤5：将前景对应的高精度方位参数传输给波束形成模块，波束形成在这个方位的输出就是增强的语音信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910705872.0/，转载请声明来源钻瓜专利网。

上一篇：选择第一编码演算法或第二编码演算法的装置与方法
下一篇：一种多路语音系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多模态远程语音感知方法及装置有效

专利文献下载