[发明专利]基于跨语种自训练的多语种模型训练方法在审

申请号：	202110642597.X	申请日：	2021-06-09
公开（公告）号：	CN113345418A	公开（公告）日：	2021-09-03
发明（设计）人：	张自强;戴礼荣	申请（专利权）人：	中国科学技术大学
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/06;G10L15/16
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	孙蕾
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语种训练模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于跨语种自训练的多语种模型训练方法，所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络，然后训练主网络来逼近所述声学音素分类器在多语种上的表征；具体包括：获取目标网络；训练主网络；将训练好的主网络迁移至目标语种自动语音识别模型。

技术领域

本发明涉及低资源语音识别和语音表示学习领域，尤其涉及一种基于跨语种自训练的多语种模型训练方法。

背景技术

目前先进的语音识别(Automatic Speech Recognition,ASR)模型通常需要在成百上千的有标注数据上训练得到，而这种规模的标注数据通常在低资源语种上难以获取。预训练方法可有效解决低资源ASR的数据问题，它先通过其他资源(其他语种数据或本语种无标注数据)预训练一个模型，然后将该模型迁移到低资源ASR模型上去。

已有的预训练方法可分为有监督和无监督方法。早期的研究关注于有监督预训练，在该方法中，预训练模型通常是在一个或多个其他语种的有标注数据上训练得到，然后用来初始化目标语种ASR模型的声学模型部分或者整个模型。

在现实世界中，无标注数据通常比有标注数据更容易获取，因此与有监督预训练相比，无监督预训练具有利用大量无标注数据的优势。在此情景下，我们期望无监督模型可以产生对语音有意义的压缩表征，类似于有监督模型产生的语义表征那样。无监督预训练可以通过根据上下文重建语音帧的方式，也可以通过对比损失的方式构建自监督任务，后者中的wav2vec 2.0也成为目前单语种和多语种最先进的无监督预训练模型。

对于单语种而言，另一种同时利用有标注数据和无标注数据的训练模型的方法为自训练(Self-training,ST)，它先在有标注数据上正常训练一个ASR模型，称之为教师模型，然后利用教师模型为无标注数据生成伪标签，最后再所有的重新标注后的数据上训练一个新的ASR模型，称之为学生模型。由于教师模型不能解码其他语种的语音，因此自训练的方法只能利用本语种的数据。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于跨语种自训练的多语种训练方法及模型，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种基于跨语种自训练的多语种模型训练方法，所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络，然后训练主网络来逼近所述声学音素分类器在多语种上的表征；具体包括：

获取目标网络；

训练主网络；

将训练好的主网络迁移至目标语种自动语音识别模型。

其中，所述训练主网络包括：

获取目标网络表征，在输入多语种数据时，使用多视角数据增强对数据进行扰动；

获取主网络表征，输入多语种数据时，使用多视角数据增强对数据进行扰动；

模型参数滑动平均。

其中，所述多视角数据增强对输入的语音特征序列进行随机扰动，使所述目标网络和所述主网络分别接收不同视角下的语音特征序列，以此来增强所述主网络的表征重建能力和上下文建模能力。

其中，所述模型参数滑动平均在训练的过程中将所述主网络的模型参数以滑动平均的方式加到所述目标网络上去，不断优化所述目标网络的表征，使得训练过程朝着多语种表征能力不断增强的方向进行。

其中，所述训练方法还包括构建损失函数，以产生训练信号并指导主网络参数更新；接收目标网络和主网络的输出语音表征序列，并计算两个语音表征序列模值归一化之后的欧式距离。

其中，所述将训练好的主网络迁移至目标语种自动语音识别模型，具体包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110642597.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种绿色餐盒及其加工工艺
下一篇：清洁机器人清洁地面的方法以及清洁机器人

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于跨语种自训练的多语种模型训练方法在审

专利文献下载