[发明专利]基于双向上下文的非自回归语音识别网络、方法及设备有效
申请号: | 202111066812.2 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113516973B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 珠海亿智电子科技有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/06;G10L15/183 |
代理公司: | 深圳青年人专利商标代理有限公司 44350 | 代理人: | 吴桂华 |
地址: | 519000 广东省珠海市高新区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 上下文 回归 语音 识别 网络 方法 设备 | ||
本发明适用于人类语言处理技术领域,提供了一种基于双向上下文的非自回归语音识别网络、方法、设备及存储介质,本发明提供的语音识别网络采用Transformer的编码器‑解码器结构,语音识别网络的编码器用于对输入的语音特征进行初步识别,得到初步识别结果,语音识别网络的解码器用于利用由初步识别结果提供的双向语言信息对初步识别结果进行调整,并输出最终的语音识别结果,其中,解码器通过预设的、应用于解码器的每个多头自注意力层的注意力掩码利用双向语言信息,从而充分了利用了语言信息,提高了语音识别效果,且相较于使用两个单向解码器分别利用单向语言信息的方法,结构更加高效统一。
技术领域
本发明属于人类语言处理技术领域,尤其涉及一种基于双向上下文的非自回归语音识别网络、方法、设备及存储介质。
背景技术
语音识别在车载应用、语音唤醒、人机交流和智能家居等场景中有着广泛的应用。语音识别模型的输入为语音,而输出为该语音内容中的文字。传统的语音识别技术一般为自回归的解码方式,即文字的输出是串行的,该方法精度较高,但速度远远达不到实时性的要求。相对的,非自回归方法的字符预测是并行的,可以满足实时性的要求,但是非自回归方法不能较好地对语言信息进行建模,且解码前一般需要提前确定输出序列长度,相比于自回归方法,长度预测困难,识别精度较低。在过去的很长时间里,学术界与产业界涌现出大量提升非自回归语音识别能力的方法。目前工业界普遍应用的方法基于CTC(Connectionist Temporal Classification)(Alex Graves, Santiago Fernandez, etal. Connectionist temporal classification: labelling unsegmented sequencedata with recurrent neural networks[C]. International Conference on MachineLearning, 2006: 369–376.),但CTC方法只对输入的语音特征进行建模,导致输出文字间有很强的条件独立假设,输出的文字之间无法利用相互之间的语言信息,且CTC方法的计算复杂度为输入语音帧长度的平方,计算复杂度高。近年来,随着各领域方法的相互融合借鉴,首先在机器翻译领域被提出的Transformer(Ashish Vaswani, Noam Shazeer, NikiParmar, Jakob Uszkoreit, Llion Jones, et al. Attention is all you need[C].Conference and Workshop on Neural Information Processing Systems, 2017: 5998–6008.)也被广泛应用于语音识别任务中,由于Transformer方法可以同时对语音和语言信息进行建模,所以众多基于Transformer结构的非自回归方法被提出来用于解决语音识别的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海亿智电子科技有限公司,未经珠海亿智电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111066812.2/2.html,转载请声明来源钻瓜专利网。