[发明专利]基于知识蒸馏技术优化神经网络模型的方法在审
申请号: | 202110098053.1 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112766463A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 秦豪;赵明 | 申请(专利权)人: | 上海有个机器人有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 梁秀秀 |
地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 蒸馏 技术 优化 神经网络 模型 方法 | ||
本申请是关于一种基于知识蒸馏技术优化神经网络模型的方法、电子设备及存储介质,通过根据动态知识迁移的策略,基于第一网络模型的预测值以及第一数据集的真实标签值,得到动态权重;根据所述动态权重实时更新所述第一交叉熵损失以及所述第二交叉熵损失,得到综合交叉熵损失,以此利用第一网络模型的输出结果动态监督第二网络模型的训练过程,相比于原本直接训练第二网络模型的方法,机器人识别模块在保持计算复杂度的情况下,使得第二网络模型的精度提升,解决了传统的知识蒸馏并没有充分地将大网络的知识迁移到轻量型网络中,轻量型网络的精度尚存在提高空间的问题。
技术领域
本申请涉及人工智能技术领域,尤其涉及基于知识蒸馏技术优化神经网络模型的方法、电子设备及存储介质。
背景技术
随着深度学习的发展,基于深度神经网络的识别算法得到普及,同时这类算法计算量庞大的问题,导致这类算法在机器人等边缘端设备很难运用,受限其有限的计算资源,需要对算法复杂度优化,对网络结构精剪。
知识蒸馏(Knowledge distillation)是一种通过知识迁移的想法,通过训练好的大模型(Teacher Model)来指导小模型(Student Model)训练的方法,缩小小模型与大模型精度差异的效果。但是,传统的知识蒸馏并没有充分地将大网络的知识迁移到轻量型网络中,轻量型网络的精度尚存在提高空间。
因此,期望借助知识蒸馏的技术,实现小模型的精度提升。
发明内容
为克服相关技术中存在的问题,本申请提供一种基于知识蒸馏技术优化神经网络模型的方法、电子设备及存储介质,旨在解决在机器人端因算力不足而导致神经网络性能下降的问题。同时,借助知识蒸馏技术,提出了一种无监督学习的策略,大大增加业务小模型训练数据量,降低标注成本。
本申请解决上述技术问题的技术方案如下:一种基于知识蒸馏技术优化神经网络模型的方法,其特征在于,包括以下步骤:步骤1,基于Darknet53网络架构构建第一网络模型,得到所述第一网络模型的第一交叉熵损失;步骤2,将第一数据集输入所述第一网络模型,根据所述第一交叉熵损失训练所述第一网络模型,得到第一网络模型的网络参数;步骤3,基于Mobilenet网络构建第二网络模型;步骤4,根据所述第一交叉熵损失,基于知识蒸馏,得到所述第二网络模型的第二交叉熵损失;步骤5,根据动态知识迁移的策略,基于第一网络模型的预测值以及第一数据集的真实标签值,得到动态权重;步骤6,根据所述动态权重实时更新所述第一交叉熵损失以及所述第二交叉熵损失,得到综合交叉熵损失。
优选的,在步骤6之后还包括以下步骤:S101,将所述第一数据集和一第二数据集按照数目比1:5混合,得到第二网络模型的训练集;S102,将所述训练集输入到所述第二网络模型中,根据训练集的数据类型来选择所述综合交叉熵损失的计算,得到所述第二网络模型的损失类型;S103,根据所述第二网络模型的损失类型,采用随机梯度下降法SGD和动量法,训练所述第二网络模型;S104,当第二网络模型的第二交叉熵损失与所述第一网络模型的第一交叉熵损失比例小于1%时,停止训练所述第二网络模型,得到所述第二网络模型的网络参数。
优选的,所述第一网络模型的结构按计算单元处理顺序为:第一卷积块,用于对输入到所述第一网络模型的第一数据集进行卷积处理,所述第一卷积块由52层卷积堆叠而成;第一嵌入层,所述第一嵌入层由16倍下采样层构成,用于对所述第一卷积块的输出进行下采样;第二卷积块,用于对所述第一嵌入层的输出进行卷积处理;第一全连接层,用于将所述第二卷积块的输出经过所述第一全连接层后输入到一第一网络输出层。
优选的,所述第二网络模型的结构按计算单元处理顺序为:第一组卷积块,用于对输入到所述第二网络模型的训练集进行卷积处理,所述第一组卷积块由19层组卷积模块构成;第二嵌入层,所述第二嵌入层由16倍下采样层构成,用于对所述第一组卷积块的输出进行下采样;第二组卷积块,用于对所述第二嵌入层的输出进行卷积处理;第二全连接层,用于将所述第二组卷积块的输出经过所述第二全连接层后输入到一第二网络输出层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海有个机器人有限公司,未经上海有个机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110098053.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动采茶机
- 下一篇:一种出料自动校正机构