[发明专利]提高语音唤醒率及修正DOA的方法有效

申请号：	201711375740.3	申请日：	2017-12-19
公开（公告）号：	CN108122563B	公开（公告）日：	2021-03-30
发明（设计）人：	朱振岭;冯大航;陈孝良;苏少炜;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L25/84	分类号：	G10L25/84;G10L21/0208;G10L21/0216;G10L15/20;G01S3/80
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	任岩
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	提高语音唤醒修正 doa 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种提高语音唤醒率及修正DOA的方法，包括：步骤S1，进行单或双通道语音增强，通过VAD检测或者语音存在概率计算是否存在语音，若存在语音则转至步骤S2；步骤S2，进行唤醒，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；步骤S3，进行高分辨率DOA估计以及基于估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；步骤S4，设备进入识别状态，确定DOA。通过两次唤醒，可以大大提高远场语音唤醒率，同时得到更加准确的目标方向估计，便于后续语音增强中提高SNR减少语音损伤，进一步提高识别率。

技术领域

本公开涉及智能语音交互领域，尤其涉及一种提高语音唤醒率和修正DOA(Direction of Arrival，即波达方向)的方法。

背景技术

当前智能语音硬件设备应用越来越广泛，如智能音响、机器人等。这些智能语音设备一般通过麦克风阵列信号处理后再进行语音识别，从而提高远场条件下的语音识别率。这些设备一般都具有的功能包括可以用某个关键词唤醒，唤醒后可以找到说话人的方向，可以对说话人的方向进行语音增强，并且自己在播放音乐或语音的情况下，可对其用唤醒词打断。因此主要涉及的技术包括回声消除技术、波达方向估计技术、波束形成技术、去混响技术等。

目前这些智能语音交互设备存在的一个难题是远场唤醒率低。智能语音交互设备的唤醒、识别依赖于语音信号质量的好坏，设备对接收到的干净的语音信号唤醒率、识别率都很高，对受混响、噪声、干扰影响远场语音信号唤醒率、识别率都较低。这是因为目前的处理方法是在唤醒时进行DOA估计，而此时用于唤醒的语音信号通常是某一路未经处理或者经过单通道降噪的麦克风信号，信号质量偏低，导致唤醒率偏低，且当多个声源同时存在或者当设备距离墙壁、显示屏等强反射面时，唤醒时刻DOA估计不准确，导致后面的波束形成误将说话人的声音当做噪声消除掉，从而造成设备无法听懂说话人的指令。

公开内容

(一)要解决的技术问题

本公开提供了一种提高语音唤醒率和修正的方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种提高语音唤醒率及修正DOA的方法，包括：步骤S0，接收麦克风阵列获取的录音信号，并判断设备是否处于唤醒状态，若处于未唤醒状态，则执行步骤S1；步骤S1，进行单或双通道语音增强，通过VAD检测或者语音存在概率计算是否存在语音，若存在语音则转至步骤S2；若不存在语音则返回步骤S0；步骤S2，进行唤醒，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0；步骤S3，进行高分辨率DOA估计以及基于估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；若不存在则返回步骤S0；步骤S4，设备进入识别状态，确定DOA。

在本公开一些实施例中，所述步骤S3包括：采用MUSIC算法进行高分辨率DOA估计，假设有D个声源，

数据协方差矩阵表示为：

R(k)_xx＝E{X(k)X(k)^H}＝R(k)_SS+R(k)_nn

其中R(k)_SS＝E{S(k)S(k)^H}，R(k)_nn＝E{n(k)n(k)^H}分别是语音、噪声协方差矩阵；S(k)＝[s₁(k),…,s_l(k),…,s_D(k)]^T是D*1维信号源向量，s_l(k)是第l个声源信号，n(k)是噪声向量，T表示转置,k表示频带。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司，未经北京声智科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711375740.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于卷积神经网络和随机森林的音频分类方法
下一篇：内部电压产生电路

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]提高语音唤醒率及修正DOA的方法有效

专利文献下载