[发明专利]一种自组织麦克风语音识别的逐层通道选择方法在审
申请号: | 202110775871.0 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113628614A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 张晓雷;陈俊淇 | 申请(专利权)人: | 西北工业大学;西北工业大学深圳研究院 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L19/008;G10L21/0216 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 组织 麦克风 语音 识别 通道 选择 方法 | ||
本发明公开了一种自组织麦克风语音识别的逐层通道选择方法,该方法基于conformer语音识别架构,具体框架如下:(1)采用编码器‑解码器架构,其中编码器基于Conformer框架,解码器基于Transformer框架,并在编码器‑解码器模块中引入多头注意力机制;(2)对于单通道语音识别系统,采用干净语音单独训练;(3)对于多通道语音识别系统,将各个通道语音编码后共享同一个解码器,并训练多层流注意力机制,对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高,计算复杂度更低。
技术领域
本发明属于语音识别技术领域,具体涉及一种语音识别的逐层通道选择方法。
背景技术
远距离语音识别是一个极具挑战性的问题。基于麦克风阵列的多通道语音识别是提升性能的一种重要方法。然而,当说话人与麦克风阵列的距离增大时,语音的质量会急剧下降,导致无论阵列上加入多少通道,自动语音识别(Automatic Speech Recognition,ASR)的性能都会存在一个物理上界。自组织麦克风阵列是解决上述问题的一个方法,其包含一系列麦克风节点随机散布在声场中,麦克风节点可以是一个麦克风或一个麦克风阵列。利用通道权重分配和通道选择,可以自动将说话人周围的麦克风组织为一个局部阵列,从而减少远距离场景出现的可能性。目前已有的通道选择和权重分配标准可以分为两种:(1)基于信号层面的标准,如信噪比等;(2)基于识别层面的标准,如词错误率(WER)等。
第一种通道选择机制是设计与语音识别系统独立的估计器,其根据每个通道的估计语音质量进行通道选择,如信噪比、距离、方向、包络方差和房间脉冲响应。在通道选择后,或通过自适应波束形成将所选的多个通道融合到一个通道,或直接选择一个最佳通道输入到ASR系统中。虽然基于语音质量的估计在大多数情况下与ASR性能强相关,但优化语音质量并不代表能得到最优的ASR性能。
第二种方法基于优化ASR性能来设计通道选择和通道融合。较早的方法考虑选择ASR解码后输出似然概率最大的通道。由于基于注意力机制的编码器-解码器这种新领域结构出现,通道选择任务可以在ASR系统内部进行。有研究者设计了一个带有多层注意力机制的多通道编码器结构,多层注意力的第一层用于对每个通道的输入进行时间对齐,然后经过称为流注意力的第二层注意力,对所有通道的输出进行权重分配和融合。基于上述方法,有研究者设计了一个两阶段的训练方法,第一阶段训练一个单通道的编码器,然后将参数分享到所有通道的编码器上并固定;第二阶段用多通道数据微调流注意力。这种训练方法使得该结构能泛化到任意数量的通道上。然而,上述方法只考虑了少量自组织节点的通道权重分配(不超过10个麦克风节点),并且没有探究通道选择的问题。当声场环境变大和变复杂,同时自组织节点变多时,一方面由于某些通道受噪声影响极大,需要丢弃某些对性能没有帮助的通道,另一方面由于通道数的增多,会导致网络计算量增大,因此需要探究降低计算复杂的的通道选择方法。
发明内容
为了克服现有技术的不足,本发明提供了一种自组织麦克风语音识别的逐层通道选择方法,该方法基于conformer语音识别架构,具体框架如下:(1)采用编码器-解码器架构,其中编码器基于Conformer框架,解码器基于Transformer框架,并在编码器-解码器模块中引入多头注意力机制;(2)对于单通道语音识别系统,采用干净语音单独训练;(3)对于多通道语音识别系统,将各个通道语音编码后共享同一个解码器,并训练多层流注意力机制,对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高,计算复杂度更低。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775871.0/2.html,转载请声明来源钻瓜专利网。