[发明专利]语言模型的训练方法及装置在审
| 申请号: | 202011053142.6 | 申请日: | 2020-09-29 | 
| 公开(公告)号: | CN114330290A | 公开(公告)日: | 2022-04-12 | 
| 发明(设计)人: | 庄毅萌 | 申请(专利权)人: | 北京三星通信技术研究有限公司;三星电子株式会社 | 
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/30 | 
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王皎彤;苏银虹 | 
| 地址: | 100028 北京市朝*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 语言 模型 训练 方法 装置 | ||
提供一种语言模型的训练方法及装置。该语言模型的训练方法包括:接收输入的训练数据,其中,训练数据包括给定词和所述给定词的上下文;基于所述给定词和所述给定词的上下文,生成训练数据在目标语言中的词的上下文相关向量的代理,并且基于所述给定词的上下文,生成训练数据在源语言中的上下文相关的词向量;基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数;并且基于所述损失函数进行训练,从而实现跨语言对齐的目的,提高了语言模型的质量。
技术领域
本公开涉及自然语言处理技术领域。更具体地,本公开涉及一种语言模型的训练方法及装置。
背景技术
语言模型最早于2003年前后被提出,语言模型通过特定任务的训练学习自然语言中的统计规律与语义表示,预训练的语言模型可以被应用于其他自然语言处理任务(下游任务),例如机器阅读理解、文本分类、关系提取等等。
2018年谷歌提出掩码语言模型(masked language model),由于其在多种自然语言处理任务上可以取得超越前人方法的准确率,掩码语言模型已经成为迁移学习在自然语言处理上的一个里程碑式的方法。掩码语言模型的迁移学习过程分为两部分:预训练和微调。在掩码语言模型预训练中,通过掩码(掩盖)输入文本中的部分词语(或子词),然后利用Transformer模型预测缺失词语(或子词)的任务,掩码语言模型学习上下文相关的语义表示。在下游任务中,通过微调模型参数,利用预训练中学到的信息和下游任务训练中学到的信息以完成下游任务模型的训练。
基于不同语言的向量空间大致一致的假设,在多语言数据上预训练的语言模型可以在跨语言任务上得到不错的性能,但是预训练中没有对不同语言之前的词向量结构做限制。跨语言对齐的目标是获得不同语言在一个统一向量空间中的词向量。一个词在不同上下文中可能有对应于其上下文的不同的涵义。上下文相关向量的动态性使向量对齐更有挑战性。首先,预先定义的字典不再适用于映射在特定上下文中的跨语言同义词。其次,生成任意数量的上下文相关向量是计算昂贵的。因此,为了更好地跨语言迁移学习,语言模型生成的上下文相关向量被期望在不同语言中对齐。
发明内容
本公开的示例性实施例在于提供一种掩码语言模型的训练方法及装置。
根据本公开的示例性实施例,提供一种掩码语言模型的训练方法,包括:获取待预测文本中的文字的向量,其中,所述向量至少包括词向量和位置向量;从待预测文本中选择将被执行掩码处理的文字;选择性地对被选择的文字的向量中的词向量和位置向量执行掩码处理;将经过掩码处理的待预测文本中的文字的向量输入掩码语言模型进行训练,以对掩码语言模型中的词向量和编码器进行更新。
可选地,选择性地对被选择的文字的向量中的词向量和位置向量执行掩码处理的步骤可包括:针对每个被选择的文字区间执行以下处理:从文字区间中的文字中选择向量将被执行词向量掩码处理的第一文字和向量将被执行位置向量掩码处理的第二文字;对第一文字的向量执行词向量掩码处理;对第二文字的向量执行位置向量掩码处理,其中,每个文字区间包括多个连续的文字。
可选地,从文字区间中的文字中选择向量将被执行词向量掩码处理的第一文字和向量将被执行位置向量掩码处理的第二文字的步骤可包括:按照预设比例,从文字区间中的文字中随机选择向量将被执行词向量掩码处理的第一文字和向量将被执行位置向量掩码处理的第二文字。
可选地,当在一个文字区间中相同的文字出现多次时,所述文字区间的第二文字中可最多包括一个所述相同的文字。
可选地,对第二文字的向量执行位置向量掩码处理的步骤可包括:以第一概率通过特殊占位符替代的方式替换位置向量,以第二概率通过位置向量随机替代的方式替换位置向量,以第三概率保持位置向量不变,其中,第一概率、第二概率和第三概率的和为100%。
可选地,所述向量还可包括掩码区域标识向量,用于标识被执行掩码处理的文字区间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三星通信技术研究有限公司;三星电子株式会社,未经北京三星通信技术研究有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011053142.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:清洁机器人的清洁座
- 下一篇:风电机组振动数据处理系统以及数据稀释方法





