[发明专利]一种多模态远程语音感知方法及装置有效

申请号：	201910705872.0	申请日：	2019-08-01
公开（公告）号：	CN110444220B	公开（公告）日：	2023-02-10
发明（设计）人：	吴江南;顾冠杰;廉增辉;潘翔	申请（专利权）人：	浙江大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0216;G10L21/0224;G10L21/0232;G10L21/028;G10L21/055;G10L25/45;G10L25/57;G10L15/22;G10L15/24;H04N7/14;H04N7/18
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	应孔月
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多模态远程语音感知方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模态远程语音感知方法，其特征在于，包括以下步骤：

步骤1：利用矩形麦克风阵列和摄像头，采集语音和视频信号；

步骤2：对目标语音信号利用波束形成进行初步到达角估计，以获得粗略的声源方位；

步骤3：根据粗略的声源方位，驾驶摄像头正对声源方向；

步骤4：基于初始数据建立背景模型，进行前景检测和背景模型自适应更新；

步骤5：将前景对应的高精度方位参数传输给波束形成模块，波束形成在这个方位的输出就是增强的语音信号。

2.根据权利要求1所述的一种多模态远程语音感知方法，其特征在于，所述步骤2具体包括以下子步骤：

步骤2.1，对语音信号分帧，记阵列采集到的第l帧(l＝1,...,L)信号为x(l)＝[x₁(l),x₂(l),...,x_m(l),...,x_M(l)]，其中，M表示麦克风数目，每个麦克风作为一个通道，x_m(l)＝[x_m(0,l),x_m(1,l),...,x_m(n,l)...,x_m(N-1,l)]^T表示第m个通道上采集的第l帧信号；对每帧信号应用窗函数后进行短时傅立叶变换，对第m个通道第l帧的时域信号进行傅里叶变换后的频域表示：

其中，n表示时间的索引，k表示第k个频率点，b_n表示长度为N的汉宁窗；

定义M通道的频域信号为X(k,l)：

X(k,l)＝[X₁(k,l),X₂(k,l),...,X_M(k,l)]^T，0≤k≤N-1 (2.2)

步骤2.2，定义信号的空间谱矩阵为S_X(k)，矩阵中元素假定语音信号入射角为θ，对N个频率点的空间谱估计结果进行加权求和，得到总波束功率P(θ)：

其中，w_DS(θ,k)＝[w₁(θ,k),w₂(θ,k),...,w_M(θ,k)]^T表示相位取齐的第k个频点的权向量，w_DS^H(θ,k)表示w_DS(θ,k)的共轭转置；

对总波束功率P(θ)进行角度搜索，获得粗略的声源方位角

3.根据权利要求2所述的一种多模态远程语音感知方法，其特征在于，所述步骤3具体包括以下子步骤：

步骤3.1，根据步骤2中得到的方向角判断声源的大致方向，驾驶摄像头正对声源方向。

4.根据权利要求3所述的一种多模态远程语音感知方法，其特征在于，所述步骤4具体包括以下子步骤：

步骤4.1，首先使用初始视频数据建立背景模型，记采集的第p帧图像为I_p(x,y)，(x,y)是图像矩阵像素坐标；将图像转化成灰度图后对前S帧取平均作为初始背景B₀(x,y)，公式如下：

完成背景建模后，利用当前帧减去背景模型得到前景Target(x,y)：

D(x,y)＝I_p(x,y)-B₀(x,y) (4.2)