[发明专利]多任务模型参数更新方法、系统、设备及机器可读介质在审
申请号: | 202210164123.3 | 申请日: | 2022-02-22 |
公开(公告)号: | CN115204385A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 陈国荣;吴凡 | 申请(专利权)人: | 上海云从企业发展有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06V40/16 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 张双凤 |
地址: | 201203 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 模型 参数 更新 方法 系统 设备 机器 可读 介质 | ||
1.一种多任务模型参数更新方法,其特征在于,包括:
根据预设训练集对包括多个模型任务的待训练模型进行训练,并获取训练后的待训练模型中各所述模型任务对应的正确率;
根据所述正确率确定权重梯度,其中,所述权重梯度用于表征各所述模型任务对应的任务权重,并且,所述正确率与所述任务权重之间呈负相关关系;
根据所述权重梯度对所述待训练模型进行参数更新。
2.根据权利要求1所述的方法,其特征在于,通过以下方法获取所述待训练模型:
获取预设神经网络模型,所述预设神经网络模型的输出层包括全局池化层;
在所述全局池化层之后建立隐藏层,并在所述隐藏层之后并联各所述模型任务对应的全连接层;
将并联所述全连接层之后的预设神经网络模型确定为待训练模型。
3.根据权利要求2所述的方法,其特征在于,根据所述正确率确定所述待训练模型的权重梯度,包括:
获取隐藏层参数、损失值集合和预设权重集合,并根据各所述正确率生成正确率向量,其中,所述损失值集合包括各所述模型任务对应的损失值,所述预设权重集合包括各所述模型任务对应的预设权重;
确定权重损失函数,并将所述正确率向量、所述隐藏层参数、所述损失值集合、所述预设权重集合输入所述权重损失函数,得到权重损失,其中,所述权重损失函数用于预测所述模型任务对应的任务权重与预设权重之间的误差损失;
根据所述预设权重集合和所述权重损失确定权重梯度。
4.根据权利要求3所述的方法,其特征在于,所述权重损失函数通过以下公式表示:
其中,Lw为权重损失,C为第一常数,norms为规范参数,ACCtrain为所述正确率向量,α为第一预设超参数,w为预设权重集合且w=[w1,w2,...,wN],Ld为损失值集合且Ld=[L1,L2,...,LN],N为所述模型任务的数量,W为所述隐藏层参数。
5.根据权利要求3所述的方法,其特征在于,通过以下方式确定权重梯度:
其中,为权重梯度,Lw为所述权重损失,w为预设权重集合且w=[w1,w2,...,wN],N为所述模型任务的数量,β为第二预设超参数,iter为一个训练周期的迭代次数。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据所述权重梯度对所述待训练模型进行参数更新,包括以下至少一种:
将所述权重梯度输入预设模型优化器,以对所述待训练模型进行参数更新;
根据梯度下降法和所述权重梯度对所述待训练模型中的各网络层进行参数更新。
7.根据权利要求1至5任一项所述的方法,其特征在于,根据所述权重梯度对所述待训练模型进行参数更新之后,所述方法还包括:
再次对参数更新后的待训练模型进行一次或多次参数更新,其中,每次参数更新的权重梯度根据前一次参数更新后的待训练模型中各模型任务对应的正确率确定。
8.一种多任务模型参数更新系统,其特征在于,包括:
获取模块,用于根据预设训练集对包括多个模型任务的待训练模型进行训练,并获取训练后的待训练模型中各所述模型任务对应的正确率;
确定模块,用于根据所述正确率确定权重梯度,其中,所述权重梯度用于表征各所述模型任务对应的任务权重,并且,所述正确率与所述任务权重之间呈负相关关系;
参数更新模块,用于根据所述权重梯度对所述待训练模型进行参数更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210164123.3/1.html,转载请声明来源钻瓜专利网。