[发明专利]多任务模型参数更新方法、系统、设备及机器可读介质在审
申请号: | 202210164123.3 | 申请日: | 2022-02-22 |
公开(公告)号: | CN115204385A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 陈国荣;吴凡 | 申请(专利权)人: | 上海云从企业发展有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06V40/16 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 张双凤 |
地址: | 201203 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 模型 参数 更新 方法 系统 设备 机器 可读 介质 | ||
本发明公开了一种多任务模型参数更新方法、系统、设备及机器可读介质,该方法通过对包括多个模型任务的待训练模型进行训练,并获取训练后的待训练模型中各模型任务对应的正确率,进而根据正确率确定权重梯度,权重梯度用于表征各模型任务对应的任务权重,并且,正确率与任务权重之间呈负相关关系,并根据权重梯度对待训练模型进行参数更新,将正确率较高的任务给予较低的任务权重,进而根据重梯度对待训练模型进行参数更新,使得模型训练更均衡,参数更新更准确,进而提高多任务模型的精度。
技术领域
本发明涉及模型训练技术领域,尤其涉及一种多任务模型参数更新方法、系统、设备及机器可读介质。
背景技术
随着人工智能潮流的兴起,深度学习在实际生活中的应用越来越广泛,采用单任务模型获取任务所需的模型结果已经成为主流。但当需要同时获取多个任务的模型结果时,比如评估人脸的多种属性,往往采用分别训练多个单任务模型以获取各任务的模型结果,这将导致内存占用增加和推理时间增加,因此,多任务模型的训练变得更加重要。
现有多任务模型的训练,通常采用固定的损失权重,其为人为设定,但是由于任务不同,其训练难度也不相同,人为设定的固定损失权重无法准确体现多任务模型中各任务的训练难度,导致多任务模型的参数更新不够准确,进而导致多任务模型的精度不高,无法达到模型训练的要求。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种多任务模型参数更新方法、系统、设备及机器可读介质,用于解决多任务模型的参数更新不够准确的问题。
为实现上述目的及其他相关目的,本发明提供一种多任务模型参数更新方法,包括:根据预设训练集对包括多个模型任务的待训练模型进行训练,并获取训练后的待训练模型中各所述模型任务对应的正确率;根据所述正确率确定权重梯度,其中,所述权重梯度用于表征各所述模型任务对应的任务权重,并且,所述正确率与所述任务权重之间呈负相关关系;根据所述权重梯度对所述待训练模型进行参数更新。
可选地,通过以下方法获取所述待训练模型:获取预设神经网络模型,所述预设神经网络模型的输出层包括全局池化层;在所述全局池化层之后建立隐藏层,并在所述隐藏层之后并联各所述模型任务对应的全连接层;将并联所述全连接层之后的预设神经网络模型确定为待训练模型。
可选地,根据所述正确率确定所述待训练模型的权重梯度,包括:获取隐藏层参数、损失值集合和预设权重集合,并根据各所述正确率生成正确率向量,其中,所述损失值集合包括各所述模型任务对应的损失值,所述预设权重集合包括各所述模型任务对应的预设权重;确定权重损失函数,并将所述正确率向量、所述隐藏层参数、所述损失值集合、所述预设权重集合输入所述权重损失函数,得到权重损失,其中,所述权重损失函数用于预测所述模型任务对应的任务权重与预设权重之间的误差损失;根据所述预设权重集合和所述权重损失确定权重梯度。
可选地,所述权重损失函数通过以下公式表示:其中,Lw为权重损失,C为第一常数,norms为规范参数,ACCtrain为所述正确率向量,α为第一预设超参数,w为预设权重集合且w=[w1,w2,...,wN],Ld为损失值集合且Ld=[L1,L2,...,LN],N为所述模型任务的数量,W为所述隐藏层参数。
可选地,通过以下方式确定权重梯度:其中,为权重梯度,Lw为所述权重损失,w为预设权重集合且w=[w1,w2,...,wN],N为所述模型任务的数量,β为第二预设超参数,iter为一个训练周期的迭代次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210164123.3/2.html,转载请声明来源钻瓜专利网。