[发明专利]提高语音唤醒率及修正DOA的方法有效
| 申请号: | 201711375740.3 | 申请日: | 2017-12-19 |
| 公开(公告)号: | CN108122563B | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 朱振岭;冯大航;陈孝良;苏少炜;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
| 主分类号: | G10L25/84 | 分类号: | G10L25/84;G10L21/0208;G10L21/0216;G10L15/20;G01S3/80 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 提高 语音 唤醒 修正 doa 方法 | ||
1.一种提高语音唤醒率及修正DOA的方法,包括:
步骤S0,接收麦克风阵列获取的录音信号,并判断设备是否处于唤醒状态,若处于未唤醒状态,则执行步骤S1;
步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;
步骤S2,进行唤醒,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0;
步骤S3,进行高分辨率DOA估计以及基于估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;若不存在则返回步骤S0;
步骤S4,设备进入识别状态,确定DOA;
其中,所述步骤S3还包括:
对波束合成之后的信号进行第二次唤醒,选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度:
当唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词,设备保持未唤醒状态;
当唤醒置信度存在高于第二唤醒阈值ε_h的情况时,选择唤醒置信度最高的波束方向即为目标声源方向。
2.根据权利要求1所述的方法,所述步骤S3包括:
采用MUSIC算法进行高分辨率DOA估计,声源个数为D个,
则数据协方差矩阵表示为:
R(k)xx=E{X(k)X(k)H}=R(k)SS+R(k)nn
其中R(k)SS=E{S(k)S(k)H},R(k)nn=E{n(k)n(k)H)分别是语音、噪声协方差矩阵;S(k)=[s1(k),...,sl(k),...,sD(k)]T是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪声向量,T表示转置,k表示频带;
对数据协方差矩阵进行分解,R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间;
阵元域MUSIC方位谱函数为:
P(k,θ)=1/aH(k,θ)E(k)nE(k)nHa(k,θ),θ∈Θ
a(k,θ)是阵列流形向量,θ表示方位角,Θ表示观察扇面。
3.根据权利要求2所述的方法,通过高分辨率DOA估计区分多个声源,并显示该方向信号功率,根据确定的声源方向,针对声源方向进行波束形成。
4.根据权利要求1或2所述的方法,所述步骤S1中:
单或双通道语音增强时,单通道降噪任选某一路信号,降噪方法包括维纳滤波、谱减法、IMCRA方法,双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。
5.根据权利要求1或2所述的方法,所述步骤S2中:
当检测到语音存在时进行唤醒,并计算唤醒置信度,唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3,否则视为非唤醒关键词,返回步骤S0。
6.根据权利要求5所述的方法,第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值,所述第一唤醒阈值ε_l的范围为0.3以下。
7.根据权利要求1所述的方法,所述第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型及设备误唤醒率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711375740.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于卷积神经网络和随机森林的音频分类方法
- 下一篇:内部电压产生电路





