[发明专利]一种基于乱序重排的自然语言模型预训练方法及电子设备在审
| 申请号: | 201910780239.8 | 申请日: | 2019-08-22 |
| 公开(公告)号: | CN112487786A | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 宋思睿;宋彦 | 申请(专利权)人: | 创新工场(广州)人工智能研究有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211 |
| 代理公司: | 深圳市智享知识产权代理有限公司 44361 | 代理人: | 王琴;蒋慧 |
| 地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 重排 自然语言 模型 训练 方法 电子设备 | ||
本发明涉及语言处理技术领域,尤其涉及一种基于乱序重排的自然语言模型预训练方法及电子设备,其包括如下步骤:S1、提供顺序恢复网络及预训练文本;S2、获得词级训练文本或句级训练文本;S3、将词级训练文本的每个词转化为输入词向量或者输入句向量;S4、将输入词向量或输入句向量输入至顺序恢复网络中以获得预测顺序概率分布;S5、根据预测顺序概率分布和词级训练文本的真实顺序对比或者和句级训练文本的真实顺序对比从而对顺序恢复网络进行优化;S6、重复上述步骤S2‑S5直至顺序恢复网络达到设定的优化条件。本发明提供的基于乱序重排的自然语言模型预训练方法及顺序恢复网络从而可在多个层次上提取上下文信息,使得下游任务更加容易进行。
【技术领域】
本发明涉及语言处理技术领域,尤其涉及一种基于乱序重排的自然语言模型预训练方法及电子设备。
【背景技术】
语言模型的预训练是自然语言处理的重要先行步骤,其目的是从大规模未经标注的语料中,学习字或词的表达方式——高维空间的一个向量。预训练的意义在于为后续的特定任务的训练提供初始化的字词表达向量,进而降低后续任务的训练时间,提升后续任务的效果。因此,一个好的预训练方法,对自然语言处理的大量任务,有至关重要的作用。
近年来,深度学习方法被应用在语言模型的预训练中,取得了良好的结果。其使用的预训练语料有多种来源,如维基百科,新闻语料,医疗问答语料和财报数据等。根据训练模型对字、词表达方式的不同,预训练方法可以分为以下两种:
基于传统语言模型的字词表达的NLP预训练方法。
该类方法中,每个词被一个固定的词向量表示。获取词向量的主要算法有Skip-Gram和Continuous Bag-Of-Words,二者均通过优化词预测任务(即给定一部分文本,预测未出现文本),来迫使系统学习字、词的表达。前者旨在给出一个词的上下文文本,任务是预测这个词;后者则给定一个词预测其附近的词。这样的方法虽然通过上下文关系对词向量进行学习,但是在训练过程结束后,词向量将被固定。在测试环节中,在不同上下文中出现的同一个词将保持同一种词向量表达。这样的固定表达忽略了上下文对理解词义的影响,因此在最终效果上低于下述的第二种预训练方法:
基于上下文的字词表达的NLP预训练方法。
为了解决传统语言模型的问题,近年来谷歌、Facebook等公司陆续提出了多种基于上下文字词表达的预训练方法,即同一个词的词向量表示与其所处的上下文环境有关。该类方法最成功的例子是Transformer结构:输入一个句子,其中的每个词通过自注意力机制与句子中的其他词产生联系,从而最终被表达成一个含有上下文信息的向量。
该类方法也可以被分为两类,分别是自回归语言模型(Autoregressive Model)与自编码语言模型(Autoencoding Model)。
GPT和GPT2是表现较好的自回归语言模型,其训练目标是根据前文来正确推测下一个字。其缺点为在模型的训练和词向量的生成中仅考虑了前文的信息,而忽略了后文的信息。
BERT(BidirectionalEncoder Representations from Transformer)是代表性的自编码语言模型,其训练目标是根据上下文正确推测出被遮盖或替换的字。BERT可以同时利用上下文信息,但是其中在预训练过程中,为了遮盖推测目标字,MASK标记被加入训练语料用于替换原来的目标字。因此,BERT也可以看做对文本施加MASK干扰,再训练模型去除这种干扰的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780239.8/2.html,转载请声明来源钻瓜专利网。





