[发明专利]一种模型的训练方法、装置、存储介质及电子装置在审
申请号: | 202210353017.X | 申请日: | 2022-04-06 |
公开(公告)号: | CN114511042A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 林亦宁;易芮 | 申请(专利权)人: | 杭州闪马智擎科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市西湖区文*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 存储 介质 电子 | ||
本发明实施例提供了一种模型的训练方法、装置、存储介质及电子装置,其中,该方法包括:利用训练完成的目标老师模型从N个目标维度识别训练数据,确定训练数据的第一特征图以及训练数据在每个目标维度的第一识别结果;利用初始学生模型从N个目标维度识别训练数据,确定训练数据的第二特征图以及训练数据在每个目标维度的第二识别结果;基于第一识别结果、第二识别结果、第一特征图以及第二特征图确定初始学生模型的目标损失值;在目标损失值不满足预定条件的情况下,更新初始学生模型的网络参数,直到目标损失值满足预定条件为止,得到目标网络模型。通过本发明,达到一个目标网络模型可用于执行不同的任务的效果,提高了训练模型的效率。
技术领域
本发明实施例涉及计算机领域,具体而言,涉及一种模型的训练方法、装置、存储介质及电子装置。
背景技术
知识蒸馏是一种常用的压缩技术,操作过程相对简单,同时可以获得较好的性能。知识蒸馏采用老师模型-学生模型框架,将复杂且精度较高的模型作为老师模型,简单轻量的小网络作为学生模型,老师模型学习能力较强,训练过程中将老师模型的知识迁移给学习能力较弱的学生模型,用来增加学生模型的学习能力和泛化能力,目的是让轻量的学生模型学习到和老师模型相近的精度,最终部署上线的就是这个轻量的学生模型。
常见的知识蒸馏方式主要用于单任务分类,即每个模型仅用于执行单一的动作,在由多个任务需要执行时,需要训练出多个模型,每个模型分别用于执行一个任务。
由此可知,相关技术中存在模型执行的任务单一的问题。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种模型的训练方法、装置、存储介质及电子装置,以至少解决相关技术中存在的模型执行的任务单一的问题。
根据本发明的一个实施例,提供了一种模型的训练方法,包括:利用训练完成的目标老师模型从N个目标维度识别训练数据,确定所述训练数据的第一特征图以及所述训练数据在每个所述目标维度的第一识别结果,其中,所述目标老师模型中包括所述N个第一子模型,一个所述第一子模型用于从一个所述目标维度识别所述训练数据;利用初始学生模型从所述N个所述目标维度识别所述训练数据,确定所述训练数据的第二特征图以及所述训练数据在每个所述目标维度的第二识别结果,其中,所述初始学生模型为经过初始训练后得到的网络模型,所述初始学生模型中包括所述N个第二子模型,一个所述第二子模型用于从一个所述目标维度识别所述训练数据;基于所述第一识别结果、所述第二识别结果、所述第一特征图以及所述第二特征图确定所述初始学生模型的目标损失值;在所述目标损失值不满足预定条件的情况下,更新所述初始学生模型的网络参数,直到所述目标损失值满足所述预定条件为止,得到目标网络模型。
根据本发明的另一个实施例,提供了一种模型的训练装置,包括:第一识别模块,用于利用训练完成的目标老师模型从N个目标维度识别训练数据,确定所述训练数据的第一特征图以及所述训练数据在每个所述目标维度的第一识别结果,其中,所述目标老师模型中包括所述N个第一子模型,一个所述第一子模型用于从一个所述目标维度识别所述训练数据;第二识别模块,用于利用初始学生模型从所述N个所述目标维度识别所述训练数据,确定所述训练数据的第二特征图以及所述训练数据在每个所述目标维度的第二识别结果,其中,所述初始学生模型为经过初始训练后得到的网络模型,所述初始学生模型中包括所述N个第二子模型,一个所述第二子模型用于从一个所述目标维度识别所述训练数据;确定模块,用于基于所述第一识别结果、所述第二识别结果、所述第一特征图以及所述第二特征图确定所述初始学生模型的目标损失值;训练模块,用于在所述目标损失值不满足预定条件的情况下,更新所述初始学生模型的网络参数,直到所述目标损失值满足所述预定条件为止,得到目标网络模型。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州闪马智擎科技有限公司,未经杭州闪马智擎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210353017.X/2.html,转载请声明来源钻瓜专利网。