[发明专利]一种多通道远场语音识别方法有效
| 申请号: | 201810986855.4 | 申请日: | 2018-08-28 |
| 公开(公告)号: | CN110867178B | 公开(公告)日: | 2022-01-21 |
| 发明(设计)人: | 张鹏远;李文洁;潘接林;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26;G10L25/03;G10L25/30 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;刘振 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 通道 语音 识别 方法 | ||
本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。
技术领域
本发明属于远场语音识别技术领域,具体涉及一种多通道远场语音识别方法。
背景技术
近年来,受益于计算机技术与深度学习理论的发展,在近场场景下,语音识别系统已经具有良好的语音识别性能。由于远场拾音时声学环境的复杂性,远场自动语音识别性能恶化严重。然而,人们对远场语音识别技术有着广泛的应用需求,比如新兴的智能家电领域,会议场景等。在这种环境中,语音信号受到噪声和混响的严重干扰,语音识别系统的识别率大幅度下降。为了解决这个问题,通常采用多个麦克风的信号来增强语音信号,与单通道相比,使用麦克风阵列的优势在于多通道语音信号可以提供空间上的区分性。
目前,传统的多通道语音识别系统包括:前端语音增强模块和后端语音识别模块;上述两个模块是各自独立的。首先,在前端语音增强模块中,使用麦克风阵列语音增强,对多通道信号进行前端语音增强,通常包含定位,波束形成,后滤波等。然后,在后端语音识别模块中,将增强后的语音信号传送到基于神经网络的后端语音识别的声学模型中,进行语音识别。
为了使前端语音增强和后端语音识别模型可以联合进行优化,近来也有很多方法将前端增强模块引入神经网络。使用神经网络估计语音增强的滤波系数,掩蔽值等方法,对原始的多通道远场语音信号进行增强处理;再结合后端声学模型进行联合优化训练。这些方法能够有效改善远场语音识别的性能,但是,这些传统的语音识别方法,一般需要引入一些额外的神经网络层,并且对于训练数据中没有出现过的场景,自适应能力较弱。
另外,在深度神经网络的训练过程中,通常都是以0-1硬标签作为模型训练的目标,即一组声学特征属于某个特定状态的概率为1,其他均为0。在远场场景中,语音受到噪声和混响的干扰,不同声学单元之间的区分性变得很模糊,这种情况下,标注仅限于单个声学状态并不是最优的方案。针对远场识别的声学模型,目标值在0和1之间的软标签更适合远场识别的模型。传统的知识升华策略借助性能较好的专家模型(近场数据训练的模型),来获得训练数据的软标签,用于训练学生模型(远场数据训练的模型)。但是,这种情况下,每一帧语音的软标签向量的维度通常都很大,会给训练过程带来大的存储和IO负担。
发明内容
本发明的目的在于,为解决现有的语音识别方法存在上述缺陷,本发明提出了一种多通道远场语音识别方法,该方法采用一种基于空间特征补偿的方法,并配合改进的知识升华的框架,将广义互相关参数(Generalized Cross Correlation,以下简称GCC)作为辅助特征引入到学生声学模型中,有效的提高了学生模型在远场环境下的自适应能力,以及提升远场语音识别的性能。在麦克风阵列信号处理中,GCC通常用来估计两个麦克风之间的到达时延,多个麦克风对之间的到达时延可以用来参数化声源位置。对于语音信号,GCC隐含了说话人的位置信息,提供了不同通道的位置信息,将这一信息作为神经网络训练的补偿特征可以提升远场语音识别的性能。同时,该方法还采用了一种改进的知识升华策略,只选取每个软标签向量中较大的一部分值,将剩下的值置零,作为训练学生模型的标签。改进之后的标签可以用一个维度很小的稀疏向量编码,称之为稀疏标签;用稀疏标签代替传统软标签的方法可以大幅减轻存储和IO的负担,同时对模型识别性能的提升也有一定帮助。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810986855.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种教学用粉笔套
- 下一篇:时分双工收发机及其校准方法、可读存储介质





