[发明专利]基于多层级标识的端到端语音识别模型及建模方法在审
申请号: | 202110642751.3 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113160803A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 唐健;胡宇晨;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙蕾 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层 标识 端到端 语音 识别 模型 建模 方法 | ||
本发明提供了一种基于多层级标识的端到端语音识别建模方法,包括解码推论,所述解码推论采用后推理算法,所述后推理算法包括:对应细粒度文本序列的模型产生后验概率输出序列所述输出序列能够唯一对应出粗粒度子序列计算模型生成所述粗粒度子序列的对数似然值,并以此作为现有预测输出序列的交叉验证;依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪,保证搜索路径控制在束宽度范围内。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于多层级标识的端到端语音识别模型及建模方法。
背景技术
基于编码-解码框架的端到端(End-to-End,E2E)自动语音识别(AutomaticSpeech Recognition,ASR)直接建模输入音频序列与输出文本间的序列映射关系。简洁的框架、无须语言学背景知识的优点让该结构逐渐受到学术界与工业界的追捧。
在端到端ASR中,输入的语音序列可以映射到不同层级的文本序列。语音序列与文本序列间的映射关系是一对多的。在中文ASR中,文本序列可以由拼音(pinyin)、汉字构成;英文中文本序列可以由单词(word)、字符(character)构成。
一般来说,在端到端语音识别中,采用词级文本序列进行建模是最理想的选择。模型输出不需要通过词典做进一步的转化,实现了完全意义上的端到端建模。但如果采用词级文本进行建模,模型的容量及所需的模型参数量都较大;另一方面,字符级(character)文本序列也是一种候选方案。字符文本序列能有效地控制模型大小和参数量上,但捕捉语音信号中长时序上下文相关性的能力不足,而且从已有研究工作来看,字符级文本序列在大词汇量连续语音识别任务上性能表现不佳。
近年来,受益于深度学习(Deep Learning,DL)的发展,自动语音识别(AutomaticSpeech Recognition,ASR)取得了巨大的进步。传统的基于深度学习的ASR框架基于混合架构,其由基于条件独立近似训练得来的几个独立的组件构成。另一方面,ASR方面新的研究着重于采用端到端的方法来建模输入音频到目标文本的序列间的映射关系。如,联结主义时间分类(Connectionist Temporal Classification,CTC)、循环神经网络转换器(Recurrent Neural Network Transducer,RNN-T)、分段条件随机场(SegmentalConditional Random Field,SCRF),基于注意力机制的编解码(Attention-basedEncoder-Decoder,AED)模型和Transformer模型。与传统的混合架构相比,端到端框架的ASR减少对语言学信息的依赖,简化系统结构。
端到端的序列映射方法将输入音频序列映射到目标文本。目标文本序列可以由不同层级的文本组成。如英文文本可以由单词(word)、子词(subword)或者字符(character)构成。不同层级的标识有其对应的优缺点。
词级文本表示是现实中最常见的文本表示方式。将其作为端到端语音识别的目标序列是最为理想的选择,也与端到端语音的应用设想相符。它的另一个优点在于:词级模型的输出与性能评测指标一致,避免了模型优化目标和评价指标的不匹配。在所需带文本标识的训练语料充足的情况下,词级文本是端到端语音识别建模最为理想的选择。其不足之处在于所需训练数据量大、样本分布不均的问题。为了避免直接采用词级文本存在的问题,研究人员尝试使用字符进行建模。字符级文本序列的文本单元较少,能较好的控制输出单元个数与模型大小,从而减少了对于训练数据量的需求。但字符级文本单元在构建上未考虑输出文本序列中相邻单元间的影响,无法考虑到语音的协同发音、不发音等问题。考虑到词建模单元的建模难度和字符文本单元在性能上的不足。已有工作使用子词进行建模,旨在建模难度与模型性能间寻求的平衡点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110642751.3/2.html,转载请声明来源钻瓜专利网。