[发明专利]一种多任务学习方法及装置有效
申请号: | 202010081732.3 | 申请日: | 2020-02-06 |
公开(公告)号: | CN111324695B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 李健铨;刘小康 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/205;G06F40/253;G06N3/04;G06N20/20 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 学习方法 装置 | ||
1.一种多任务学习方法,其特征在于,应用于具有不同任务目标的多个自然语言处理模型,每一所述自然语言处理模型包括第一子模型、第二子模型、融合模型和解码模型,且每一所述自然语言处理模型的第二子模型相同,所述方法包括:
将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中,并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量;
以每一所述任务目标向量为作用对象,确定第一待组合向量和第二待组合向量,所述第一待组合向量为所述作用对象中的部分私有特征向量,所述第二待组合向量为其余任务目标向量中与所述作用对象相关联的部分私有特征向量;
拼接所述第一待组合向量和所述第二待组合向量,得到每一所述任务目标向量的交互后任务目标向量;
根据所述交互后任务目标向量和多标签矩阵计算命中概率,所述多标签矩阵包括每一所述任务目标相应样本数据的标签信息;
根据所述命中概率计算相应的所述任务目标对应的单任务损失值;
根据各所述单任务损失值,计算多任务损失值;
利用所述多任务损失值调整每一所述自然语言处理模型中所述第一子模型、所述第二子模型、所述融合模型和所述解码模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中,并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量包括:
将每一所述任务目标相应的样本数据分别输入至对应的所述第一子模型和所述第二子模型,以利用所述第一子模型获取所述样本数据的私有特征向量,利用所述第二子模型获取所述样本数据的共享特征向量;
将每一所述任务目标对应的所述私有特征向量和所述共享特征向量共同输入至对应的所述融合模型中,得到融合结果;
将每一所述任务目标的所述融合结果输入至对应的所述解码模型中,输出任务目标向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述交互后任务目标向量和多标签矩阵计算命中概率包括:
利用所述任务目标预设的偏置矩阵对所述多标签矩阵进行偏置处理,得到偏置处理结果;
将所述交互后任务目标向量与所述偏置处理结果相乘,得到命中概率。
4.根据权利要求1所述的方法,其特征在于,所述根据所述命中概率计算相应所述任务目标对应的单任务损失值包括:
利用交叉熵损失函数,计算所述命中概率与所述任务目标对应的所述样本数据的全部标签信息的交叉熵损失值,得到所述任务目标对应的单任务损失值。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述单任务损失值,计算多任务损失值包括:
计算每一所述自然语言处理模型对应的全部所述单任务损失值的加和,得到多任务损失值。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
以每一所述任务目标对应的共享特征向量作为目标共享特征向量,利用对抗学习模型计算所述目标共享特征向量与其余所述共享特征向量之间的对抗损失值;
利用所述对抗学习模型降低所述对抗损失值。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
以每一所述任务目标对应的私有特征向量和共享特征向量作为待处理私有特征向量和待处理共享特征向量,利用差异化学习模型计算所述待处理私有特征向量和所述待处理共享特征向量之间的相似度;
利用所述差异化学习模型降低所述相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010081732.3/1.html,转载请声明来源钻瓜专利网。