[发明专利]自然语言处理模型的训练方法及装置有效

申请号：	201910471393.7	申请日：	2019-05-31
公开（公告）号：	CN110188358B	公开（公告）日：	2023-10-24
发明（设计）人：	李健铨;刘小康;马力群	申请（专利权）人：	鼎富智能科技有限公司
主分类号：	G06N3/098	分类号：	G06N3/098;G06N3/084;G06N3/044;G06N3/048;G06F18/25;G06F40/30;G06F40/284;G06F40/211
代理公司：	北京弘权知识产权代理有限公司 11363	代理人：	逯长明;许伟群
地址：	230000 安徽省合肥市***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自然语言处理模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了自然语言处理模型的训练方法及装置，应用于多个具有不同任务目标的自然语言处理模型，多个自然语言处理模型共享部分隐层，所述方法首先将所有任务相应训练样本的标签信息融合并表示为多标签矩阵，根据模型输出的任务目标向量和多标签矩阵计算命中概率，并根据命中概率计算单任务损失值；再根据各个单任务损失值计算多任务损失值；最后根据多任务损失值，调整每一模型的参数。本申请方法中，多个自然语言处理模型联合学习，通过共享部分隐层来共享多个任务的浅层特征表示，梯度同时反向传播帮助隐层逃离局部极小值，多个标签的融合及其向量表示帮助增加标签的表达泛化能力和表示能力，进而可以提高每个模型的准确性和泛化性。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种自然语言处理模型的训练方法及装置。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它研究如何使计算机既能理解自然语言文本的意义，又能通过自然语言文本来表达给定的意图、思想等，前者称为自然语言理解，后者称为自然语言生成。

无论是自然语言理解，还是自然语言生成，其任务诸多，大体可按照任务类型分为词法分析，句子分析，语义分析，信息抽取，高层任务等。其中，由于所有自然语言都具有词法、句法特征，因此对于词法分析，句子分析等任务，无需限定句子领域，故可称为基础任务。而如文本分类、机器翻译、文本摘要、问答系统、对话系统、阅读理解等任务，为直接面向普通用户提供自然语言处理产品服务的系统级任务，并且涉及多个层面的自然语言处理技术，故为高层任务。

基础任务亦或是高层任务的目标一般均通过一个基于机器学习的自然语言处理模型实现。模型的输入为自然语言文本数据，模型的输出则为任务目标。利用任务目标相应的大规模标注语料对模型进行训练并朝着训练目标不断优化，即可得到一个可对未知文本处理进而实现上述功能的优化模型。

通常，机器学习为解决一个单一问题而针对单一任务目标进行，即单任务训练。然而，不同任务模型的数据集差异巨大，因此任务模型只能在本数据集上获得较好的效果，而对于非本数据集的数据，任务模型需遭受一定的泛化性损失。另外，由于训练时只注重前述单一任务目标，而不同文本之间天生具有隐式共性，因此会造成一定的信息丢失。因此，如何提高任务模型的准确性和泛化性，是亟待解决的技术问题。

发明内容

本申请提供了自然语言处理模型的训练方法及装置，以提高任务模型的准确性和泛化性。

第一方面，本申请提供了一种自然语言处理模型的训练方法，应用于多个具有不同任务目标的自然语言处理模型，所述多个自然语言处理模型共享部分隐层；该方法包括：

对于每一任务目标，将相应训练样本输入至相应自然语言处理模型中，输出任务目标向量；

根据所述任务目标向量和多标签矩阵计算命中概率，所述多标签矩阵包括所有任务目标相应训练样本的标签信息；

根据所述命中概率计算单任务损失值，根据各自然语言处理模型对应的单任务损失值计算多任务损失值；

根据所述多任务损失值，调整每一自然语言处理模型的参数。

第二方面，本申请提供了一种自然语言处理模型的训练装置，应用于多个具有不同任务目标的自然语言处理模型，所述多个自然语言处理模型共享部分隐层；所述装置包括：

输入单元，用于对于每一任务目标，将相应训练样本输入至相应自然语言处理模型中，输出任务目标向量；

概率计算单元，用于根据所述任务目标向量和多标签矩阵计算命中概率，所述多标签矩阵包括所有任务目标相应训练样本的标签信息；

损失计算单元，用于根据所述命中概率计算单任务损失值，根据各自然语言处理模型对应的单任务损失值计算多任务损失值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。