[发明专利]中英语种混杂语音识别模型训练方法和装置有效
| 申请号: | 202010718606.4 | 申请日: | 2020-07-23 |
| 公开(公告)号: | CN111816169B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 钱彦旻;卢怡宙;黄明坤;李豪;郭嘉祺 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/00;G10L15/14 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 英语 混杂 语音 识别 模型 训练 方法 装置 | ||
本发明公开中英语种混杂语音识别模型训练方法和装置,其中,所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络,所述方法包括:对所述中英双语模型进行预训练;将预训练好的中英双语模型用作所述双编码器多专家模型的初始化,其中,所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量;将所述两个高维特征向量作为所述门限网络的输入;以及接收所述门限网络输出的两个标量系数,并将所述两个标量系数作为所述双编码器多专家模型的插值系数。
技术领域
本发明属于语音识别模型领域,尤其涉及中英语种混杂语音识别模型训练方法和装置。
背景技术
随着全球化的发展,我们日常交流中经常会出现中文语境下英文单词夹杂的现象,这种语言现象称之为语种混杂(Code-switching)。语种混杂,尤其是中英文混杂的语音表达在应用场景中很常见,我们也经常会听到这类在中文里夹杂英文的语音:“我要上Coursa学习Deep Learning的课程”,“我刚拿到了一个新的offer”等等。
相关技术中,目前市面上已经有很多应用到语音识别技术的产品,比如语音输入法、智能语音助手等,而对于语音识别任务,目前主要有两种技术方案:
1)基于DNN-HMM的混合语音识别;
2)端到端语音识别。
其中,基于DNN-HMM的语音识别系统包括声学模型、发音词典和语言模型等多个组成成分,不同模块之间独立进行训练优化。
端到端语音识别模型直接对输入声学观测条件下输出字序列的后验概率进行建模,并将传统DNN-HMM混合模型中的各个组成成分用一个神经网络模型进行优化。以基于注意力机制的序列到序列模型为例,输入的声学特征先经过编码器来转化成高维特征向量,之后通过注意力机制和相应的解码器进行解码输出。
发明人在实现本申请的过程中发现,现有方案至少存在以下缺陷:
1)对DNN-HMM语音识别系统来说,这个系统需要分别构建声学模型、发音词典以及语言模型等模块,不同模块之间独立进行优化,具有不同的优化目标。不同模块的优化目标都与整个系统最终的优化目标不一致,容易得到次优解。此外,DNN-HMM系统在构建不同子模块的过程中需要耗费大量的人力资源,一些模块还需要很多的相关专业知识 (如音素集合的选取、发音词典的构建等),这使得整个系统的搭建变得十分复杂,而这个问题在对多种语言进行建模时更为严重。
2)对端到端模型来说,端到端模型将DNN-HMM系统中的不同模块用一个神经网络统一进行建模,整个模型只有一个最终的优化目标。相比之下,端到端模型的训练会变得很简单,且不需要音素相关的知识,在模型大小上相比DNN-HMM系统具有明显优势,适合部署在移动设备上或进行离线语音识别。然而,端到端模型的训练往往需要大量语音数据,且目前端到端模型还是一个相对较新的技术,虽然在部分任务上取得了当前最优的结果,但还没能完全取代掉传统的DNN-HMM系统。
3)一般的语音识别系统只针对特定某种语言进行建模,而这种单语的语音识别系统不能解决多语种的情况,在语种不匹配时将完全识别错误。语种混杂语音识别任务是面向多语言的语音识别任务,需要对不同语言进行建模,而直接套用原先的端到端模型结构将无法捕捉特定语言的特异性信息。
发明内容
本发明实施例提供一种中英语种混杂语音识别模型训练方法和装置,用于至少解决上述技术问题之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010718606.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动镜片切边机
- 下一篇:一种联盟链搭建方法、装置、计算机设备及存储介质





