[发明专利]一种自组织麦克风语音识别的逐层通道选择方法在审
申请号: | 202110775871.0 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113628614A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 张晓雷;陈俊淇 | 申请(专利权)人: | 西北工业大学;西北工业大学深圳研究院 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L19/008;G10L21/0216 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 组织 麦克风 语音 识别 通道 选择 方法 | ||
1.一种自组织麦克风语音识别的逐层通道选择方法,其特征在于,包括以下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
其中分别称为质询矩阵、键矩阵和值矩阵;Concat(·)是矩阵拼接操作,n代表头的数量,是可学习的变换矩阵;
第i个头Ui的运算表达为:
其中都是可学习的变换矩阵,Dk=Dh/n是每个头的特征向量维度;
步骤1-2:单通道ASR系统;
给定一个语料的输入声学特征及其目标输出文本序列其中T和Dx分别是输入X的长度和特征维度,L和Dv分别是输出的长度和字典大小;
首先,输入X经过卷积下采样层,得到下采样后的输入然后经过编码器Enc(·)和解码器Dec(·):
其中下标N1和N2分别代表编码器和解码器的块数量,Emb(·)代表线性变换和位置编码;为当前解码时间步l之前的输出,为解码时间步l的语义向量,是由编码器提取得到的高维表征;
最后,通过一个线性变换将cl映射为输出向量yl;
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(.)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl:
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl;
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
其中代表一个K-1维的单纯形,p表示输出向量;
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
Sparsemaxi(z)=max(zi-τ(z),0)
其中代表一个搜寻软阈值的函数;
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z|是输入向量的L2范数,Linear(.)代表两层可学习线性变换,其维度分别为2×2和1×2;
Scaling Sparsemax的具体算法表述如下:
首先对输入向量z进行排序,得到z(1)≥…≥z(K);然后从k=K开始搜索到k=1,当出现k满足条件时,令最后输出向量p,其中第i维元素值表示为pi=max(zi-τ(z),0)/s;
缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;
步骤2-2:多通道ASR系统;
多通道系统的结构描述如下:
给定一个语料所有通道的输入声学特征其中下标k指定某个特定通道,C代表总输入通道数,每一个通道的输入声学特征分别经过单独的编码器得到每一个通道的高维表征Hk:
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
其中由下式获取:
是经过解码器第1到N2-1层后的输出,是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
同时,由之前时间步的输出向量通过第一层流注意力解码层的多头注意力机制提取导向矢量
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl;
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于ScalingSparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775871.0/1.html,转载请声明来源钻瓜专利网。