[发明专利]基于知识蒸馏技术优化神经网络模型的方法在审
| 申请号: | 202110098053.1 | 申请日: | 2021-01-25 |
| 公开(公告)号: | CN112766463A | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 秦豪;赵明 | 申请(专利权)人: | 上海有个机器人有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 梁秀秀 |
| 地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 知识 蒸馏 技术 优化 神经网络 模型 方法 | ||
1.一种基于知识蒸馏技术优化神经网络模型的方法,其特征在于,包括以下步骤:
步骤1,基于Darknet53网络架构构建第一网络模型,得到所述第一网络模型的第一交叉熵损失;
步骤2,将第一数据集输入所述第一网络模型,根据所述第一交叉熵损失训练所述第一网络模型,得到第一网络模型的网络参数;
步骤3,基于Mobilenet网络构建第二网络模型;
步骤4,根据所述第一交叉熵损失,基于知识蒸馏,得到所述第二网络模型的第二交叉熵损失;
步骤5,根据动态知识迁移的策略,基于第一网络模型的预测值以及第一数据集的真实标签值,得到动态权重;
步骤6,根据所述动态权重实时更新所述第一交叉熵损失以及所述第二交叉熵损失,得到综合交叉熵损失。
2.根据权利要求1所述的基于知识蒸馏技术优化神经网络模型的方法,其特征在于,在步骤6之后还包括以下步骤:
S101,将所述第一数据集和一第二数据集按照数目比1:5混合,得到第二网络模型的训练集;
S102,将所述训练集输入到所述第二网络模型中,根据训练集的数据类型来选择所述综合交叉熵损失的计算,得到所述第二网络模型的损失类型;
S103,根据所述第二网络模型的损失类型,采用随机梯度下降法SGD和动量法,训练所述第二网络模型;
S104,当第二网络模型的第二交叉熵损失与所述第一网络模型的第一交叉熵损失比例小于1%时,停止训练所述第二网络模型,得到所述第二网络模型的网络参数。
3.根据权利要求2所述的基于知识蒸馏技术优化神经网络模型的方法,其特征在于,所述第一网络模型的结构按计算单元处理顺序为:
第一卷积块,用于对输入到所述第一网络模型的第一数据集进行卷积处理,所述第一卷积块由52层卷积堆叠而成;
第一嵌入层,所述第一嵌入层由16倍下采样层构成,用于对所述第一卷积块的输出进行下采样;
第二卷积块,用于对所述第一嵌入层的输出进行卷积处理;
第一全连接层,用于将所述第二卷积块的输出经过所述第一全连接层后输入到一第一网络输出层。
4.根据权利要求3所述的基于知识蒸馏技术优化神经网络模型的方法,其特征在于,所述第二网络模型的结构按计算单元处理顺序为:
第一组卷积块,用于对输入到所述第二网络模型的训练集进行卷积处理,所述第一组卷积块由19层组卷积模块构成;
第二嵌入层,所述第二嵌入层由16倍下采样层构成,用于对所述第一组卷积块的输出进行下采样;
第二组卷积块,用于对所述第二嵌入层的输出进行卷积处理;
第二全连接层,用于将所述第二组卷积块的输出经过所述第二全连接层后输入到一第二网络输出层。
5.根据权利要求4所述的基于知识蒸馏技术优化神经网络模型的方法,其特征在于,基于知识蒸馏,在所述第一网络输出层中添加温度参数T,形成一第一网络温度输出层;
以及在所述第二网络输出层中添加温度参数T,形成一第二网络温度输出层,所述第一网络温度输出层以及所述第二网络温度输出层用于控制网络软标签的值。
6.根据权利要求5所述的基于知识蒸馏技术优化神经网络模型的方法,其特征在于,所述网络软标签的函数为:
当T=1,所述网络软标签退化成原始标签,Zi表示神经网络得到的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海有个机器人有限公司,未经上海有个机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110098053.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动采茶机
- 下一篇:一种出料自动校正机构





