[发明专利]增强局部依赖关系无监督预训练语音识别模型及训练方法在审
申请号: | 202110642843.1 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113380237A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 朱秋实;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙蕾 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增强 局部 依赖 关系 监督 训练 语音 识别 模型 方法 | ||
本发明提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。
技术领域
本发明涉及低资源语音识别领域,尤其涉及一种增强局部依赖关系的无监督预训练语音识别模型及训练方法。
背景技术
语音识别也称为自动语音识别(Automatic Speech Recognition,ASR)。其目标是将人类语音转换为计算机可读的文字或指令。低资源语音识别是语音识别的一个领域,目前利用无监督语音预训练方法来提升低资源语音识别性能是其中一种主流的方法。
无监督预训练方法采用大量无标签语音数据进行训练,能够充分利用极易获取的无标签语音数据,学习语音中的结构信息。一个具有代表性的语音无监督预训练模型是wav2vec 2.0模型。Wav2vec 2.0掩蔽语音帧信息,通过上下文预测被掩蔽的语音帧信息,然后构建对比损失函数来区分正负样本,学习语音中的结构信息。wav2vec 2.0模型是基于transformer模型结构,而transformer模型结构能够有效对长距离的上下文依赖关系进行建模,但是缺乏对细粒度局部信息的建模。由于声音事件经常发生在短时间范围内,所以长距离的上下文依赖关系和局部细粒度依赖关系都是有必要的。有研究者提出了端到端conformer模型,此模型结合深度可分离卷积模块和自注意力模块来同时建模语音中的长距离的上下文依赖关系和局部细粒度依赖关系,该模型减少了语音识别错误率。但是该conformer模型是用在端到端语音识别模型中。又有研究者提出了lite transformer模型,该模型包含两个分支,一个分支是卷积模块,另一个分支是自注意力模块,然后对两个分支的输出进行拼接。卷积模块能够捕获局部的依赖关系,而自注意力模块专注于捕获上下文依赖关系,它们各司其职,然后在机器翻译任务上取得了性能提升。这些类似的思想在不同领域均带来了性能的提升,但是在语音领域,如何在预训练模型中对局部和全局依赖性关系进行建模仍然是一个开放性的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种增强局部依赖关系的无监督预训练语音识别模型,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,作为本发明的一方面,提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,
所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。
其中,所述特征提取模块采用多层卷积神经网络。
其中,所述特征提取模块包含7层卷积,卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2),所述特征提取模块输出帧长25ms,帧移20ms。
其中,将原始语音采样点经过特征提取器提取浅层特征,所述浅层特征经过上下文模块获取上下文特征。
其中,所述解码器模块采用线性映射层或transformer decoder层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110642843.1/2.html,转载请声明来源钻瓜专利网。