[发明专利]采用双向时序卷积与自注意力机制网络的语音识别系统有效
申请号: | 202010468219.X | 申请日: | 2020-05-28 |
公开(公告)号: | CN111477221B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 郭武;孙健 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采用 双向 时序 卷积 注意力 机制 网络 语音 识别 系统 | ||
本发明公开了一种采用双向时序卷积与自注意力机制网络的语音识别系统,一方面,采用双向时序卷积与自注意力机制网络既保证语音时序的感知又提升:通过双向时序卷积(Bidirectional Temporal Convolution Network,BTCN)与自注意力机制网络,BTCN可以同时捕捉过去和未来的信息,既保留了序列信息,也更好的适应Self‑Attention的全局建模能力。从而既保证了对语音序列信号的刻画能力,又提高了运算的速度。另一方面,利用下采样和上采样来减少资源需求:设计了下采样模块去减少语音序列的长度,从而减少资源需求,在输出层由于需要每一帧语音对应的标签,又通过上采样模块来恢复语音的长度。
技术领域
本发明涉及语音信号处理领域,尤其涉及一种采用双向时序卷积与自注意力机制网络的语音识别系统。
背景技术
目前,主流的大规模连续语音识别依据其识别原理可分为两类,一类是基于隐马尔可夫模型(Hidden Markov Model,HMM)的传统语音识别,另一类则是端到端的语音识别系统。而端到端的语音识别系统又主要分为基于链接时序分类(Connectionist temporalclassification,CTC)的语音识别系统,以及基于编码器——解码器(Encoder-Decoder)的语音识别系统。基于HMM框架的声学模型优化目标是最大化语音帧和帧级标注之间的似然概率,或者后验概率;而端到端的语音识别系统从全局出发,强调序列到序列的对应关系。相比于基于HMM框架的声学模型,端到端的语音识别系统更强调时序建模与长时建模,因此解决语音信号的长时依赖在端到端的语音识别系统中显得尤为重要。
循环神经网络(Recurrent Neural Networks,RNN)及其变体长短时记忆网络(Long Short-Term Memory,LSTM)广泛用于语音识别,在传统的HMM声学建模和端到端的识别模型中都表现出显著的性能提升。LSTM通过记忆单元解决了信号的长时依赖,同时在一定程度上,缓解了RNN训练过程中的梯度消失和梯度爆炸等问题,但是LSTM训练时间长,参数量大,训练难度大。与此同时,卷积神经网络(ConvolutionalNeural Network,CNN)通过加深网络层数,增大感受野,提高了网络对信号的长时建模能力,并在基于HMM框架下的声学建模发挥出显著的优势。很多学者将CNN用于CTC的声学模型,尽管训练速度相比LSTM获得明显提升,但是识别效果并不是十分理想。为了增强CNN的序列建模能力,并且进一步扩大其感受野,有学者提出一种新型的卷积神经网络——时序卷积网络(TemporalConvolution Networks,TCN)。TCN由因果卷积,空洞卷积和残差连接组成,在音乐建模和语言模型等序列任务上超越一般的循环网络结构,但是这个网络只考虑了因果的卷积,而语音实际上是一种上下文相关的序列,也就是包含反因果的过程,此外,CNN本身在提取长时信息方面存在一定缺陷。
近年来,编码器——解码器网络结构在多个领域表现出强大的优势,并成功应用到语音识别领域。LAS(Listen,Attend and Spell)模型通过金字塔形的RNN或LSTM对语音特征进行编码,并通过RNN的解码器和注意力机制将语音信号转换为目标端的文字。编码器——解码器结构省略发音词典,并且具有高效的训练流程和解码流程,也因此成为语音识别的重点研究方向。2017年谷歌提出新型编码——解码器网络Transformer用于机器翻译领域,利用自注意力机制(Self-Attention)代替RNN或LSTM,Transformer很快被应用达到语音识别上,这种前馈神经网络不仅在速度上超越LAS模型,并且获得了显著的性能提升,随后自注意力机制结合编码器——解码器框架成功应用于语音识别中。Self-Attention具有很强的全局信息捕捉能力,充分利用语音信号的长时信息,但是Self-Attention对局部信息的建模能力不足。谷歌在阅读理解任务上提出QANet(QuestionAnsweringNetworking,问答网络),结合CNN和Self-Attention,使得网络同时具有较好的局部建模能力和全局建模能力,在语音文本建模领域获得了广泛的应用,但仍然局部信息捕捉能力不够。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010468219.X/2.html,转载请声明来源钻瓜专利网。