[发明专利]一种多通道远场语音识别方法有效

申请号：	201810986855.4	申请日：	2018-08-28
公开（公告）号：	CN110867178B	公开（公告）日：	2022-01-21
发明（设计）人：	张鹏远;李文洁;潘接林;颜永红	申请（专利权）人：	中国科学院声学研究所;北京中科信利技术有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/26;G10L25/03;G10L25/30
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	陈琳琳;刘振
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通道语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多通道远场语音识别方法，其特征在于，该方法具体包括：

步骤1)提取每个通道的远场语音信号的语音特征，串接多个通道的语音特征，获得语音特征向量；

步骤2)计算任意两个通道之间的GCC特征，将GCC特征与步骤1)获得的语音特征向量拼接，获得远场特征向量，作为训练远场学生模型的训练数据；其中，GCC特征作为辅助特征；

步骤3)对专家模型进行训练，获得训练后的专家模型；将近场特征向量输入至训练后的专家模型，获得近场后验概率向量，最大化近场后验概率向量，将其作为训练远场学生模型的稀疏标签；同时采用知识升华策略，输入步骤2)获得的远场特征向量，结合步骤3)获得的稀疏标签，对远场学生模型进行训练，获得训练后的远场学生模型；

步骤4)将待识别语音信号的特征和GCC特征拼接，获得拼接后的特征向量，并将其输入至训练后的远场学生模型，获得对应的远场后验概率向量，进而得到对应的后验概率值，再经过维特比解码，对待识别的语音信号进行识别，得到识别的文字内容。

2.根据权利要求1所述的方法，其特征在于，所述步骤2)具体包括：

根据公式(1)，计算任意两个通道之间的GCC特征，假设任意两个通道的语音信号分别是x_i(t)和x_j(t)；

其中，X_i(f)和X_j(f)分别表示对应的两个通道x_i(t)和x_j(t)的语音信号的傅立叶变换；*表示它的复数共轭；gcc_ij(n)为两个通道语音信号x_i(t)和x_j(t)间的GCC参数；

将步骤1)获得的语音特征向量与GCC特征拼接，获得远场特征向量，作为训练远场学生模型的训练数据；其中，增加GCC作为辅助特征。

3.根据权利要求1所述的方法，其特征在于，所述步骤3)包括：

提取每个通道的近场语音信号的语音特征，获得近场特征向量，并将其作为训练数据训练专家模型，获得训练后的语音识别性能较好的专家模型，辅助远场学生模型的训练；其中，近场语音信号和远场语音信号是同时录制的语音信号；将近场特征向量输入至训练后的专家模型，获得近场后验概率向量，最大化近场后验概率向量，将其作为训练远场学生模型的稀疏标签。

4.根据权利要求1所述的方法，其特征在于，所述步骤3)还具体包括：

将步骤2)获得的远场特征向量输入远场学生模型，获得对应的远场后验概率向量，采用知识升华策略，利用稀疏标签训练远场学生模型，同时采用KL距离作为度量，最小化目标函数，

其中，o_t′是步骤2)获得的远场特征向量，P_S(s|o_t′)为训练后的学生模型的远场后验概率向量；o_t是步骤3)提到的近场特征向量，P_T(s|o_t)为训练后的专家模型的近场后验概率向量；

使P_S(s|o_t′)对应的后验概率值逼近P_T(s|o_t)对应的后验概率值，获得训练后的远场学生模型，通过反向回传更新学生模型的参数，获得训练后的远场学生模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司，未经中国科学院声学研究所;北京中科信利技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810986855.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种教学用粉笔套
下一篇：时分双工收发机及其校准方法、可读存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多通道远场语音识别方法有效

专利文献下载