[发明专利]采用双向时序卷积与自注意力机制网络的语音识别系统有效
申请号: | 202010468219.X | 申请日: | 2020-05-28 |
公开(公告)号: | CN111477221B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 郭武;孙健 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采用 双向 时序 卷积 注意力 机制 网络 语音 识别 系统 | ||
1.一种采用双向时序卷积与自注意力机制网络的语音识别系统,其特征在于,包括:依次设置的下采样模块、位置编码模块、堆叠的BTCSAN模块、上采样模块以及输出层;
所述下采样模块,用于对输入的原始语音特征序列进行下采样处理来降低序列长度;
位置编码模块,用于根据原始语音特征序列对应的时长以及系统模型维度来生成位置编码,再将位置编码与下采样结果叠加后输出至第一个BTCSAN模块;
所述BTCSAN模块即为双向时序卷积与自注意力机制网络,其包括:自注意力机制网络和堆叠的多个双向时序卷积网络;通过每一双向时序卷积网络对语音特征序列中的位置信息和局部信息进行建模,并结合自注意力机制网络实现全局建模,输出处理后的语音特征序列;
上采样模块,用于对最后一个BTCSAN模块输出的语义特征序列进行上采样,从而将序列长度还原;
输出层,用于对上采样模块的输出进行建模,获得语音识别结果;
其中,所述自注意力机制网络包括:多头自注意力层与位置前馈网络层;所述多头自注意力层与最后一个双向时序卷积网络之间、多头自注意力层与位置前馈网络层之间、以及相邻两个双向时序卷积网络之间均设有归一化和残差连接;
所述多头自注意力层中并联有若干个相同的子层,每一子层均为一个自注意力机制层,通过缩放的点乘注意力来实现;每一子层均有三个输入,分别为查询、键和值,依次记为Q、K与V;自注意力机制的输出通过下式计算:
其中,为调节因子;
每一子层的Q、K与V各自经过一个线性投影层以增加彼此之间的区分性,所有子层的输出拼接在一起后,经过一个线性投影层作为多头自注意力层的输出,表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,h为子层的数目,Concat表示拼接操作,headi表示第i个子层的Q、K与V经过线性投影层后得到的点乘自注意力计算结果,依次表示第i个子层的Q、K、V经过的线性投影层的权重;WO表示拼接结果后经过的线性投影层的权重;上述式子headi中计算得到新的Q、K、V,直接带入式子Attention(Q,K,V)进行计算;
所述双向时序卷积网络采用空洞卷积与因果卷积以及反因果卷积的联合运算方式,对于输入的语音特征序列x和卷积核f:{0,1,...,k-1},时刻t空洞卷积与因果卷积以及反因果卷积的输出如下:
其中,d为空洞卷积因子,k为卷积核大小,Dilated_causal表示空洞卷积与因果卷积的联合运算,Dilated_anticausal表示空洞卷积与反因果卷积的联合运算,f(j)是卷积核参数,x的下标表示语音特征所对应的语音帧序号;
每一BTCSAN模块中堆叠了Nc个双向时序卷积网络,对于第l个双向时序卷积网络,其输出O按如下方式计算:
x_fw=Dilated_causal(layernorm(x),dl,k)
x_bw=Dilated_anticausal(layernorm(x),dl,k)
O=concat(x_fw,x_bw)+x
其中,layernorm(x)表示归一化后的x,dl是第l个双向时序卷积网络的空洞卷积因子,1≤l≤Nc。
2.根据权利要求1所述的一种采用双向时序卷积与自注意力机制网络的语音识别系统,其特征在于,所述下采样模块包括两个依次连接的子模块;每一子模块都包含依次连接的二维卷积神经网络、最大池化层、以及投影层。
3.根据权利要求1所述的一种采用双向时序卷积与自注意力机制网络的语音识别系统,其特征在于,所述位置编码的公式为:
其中,dmodel为系统模型的维度,pos表示位置信息,2i与2i+1均表示语音特征中的一个维度。
4.根据权利要求1所述的一种采用双向时序卷积与自注意力机制网络的语音识别系统,其特征在于,所述位置前馈网络层包含两个全连接的线性层,中间设有一个ReLU非线性激活函数;位置前馈网络层的处理过程表示为:
FFN(x')=max(0,x'W1+b1)W2+b2
其中,x'表示输入至位置前馈网络层的数据,W1与W2、b1与b2分别表示两个线性层的权重、偏置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010468219.X/1.html,转载请声明来源钻瓜专利网。