[发明专利]任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质在审
| 申请号: | 202011030206.0 | 申请日: | 2020-09-25 |
| 公开(公告)号: | CN112132268A | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 马恺声;张林峰 | 申请(专利权)人: | 交叉信息核心技术研究院(西安)有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 李宏德 |
| 地址: | 710077 陕西省西安市高新*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 任务 牵引 特征 蒸馏 深度 神经网络 学习 训练 方法 系统 可读 存储 介质 | ||
1.任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,包括,
在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;
所述的辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。
2.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的辅助分类器由多个卷积层、池化层和全连接层组成。
3.根据权利要求2所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。
4.根据权利要求3所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的对数蒸馏损失的公式如下,
其中,LKL是KL发散损失,为训练对象,为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量。
5.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练,
其中,α是平衡两种损失的超参数,L2是L2范数损失,T是卷积变化函数,为训练对象,为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量,LCE为交叉熵损失。
6.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,特征蒸馏损失训练时,采用卷积层或全连接层作为特征调整层,调整教师模型中的蒸馏特征尺寸与学生模型的相同;采用正交损失调整特征调整层的权值。
7.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的正交损失的公式如下,
β·(‖WTw-i‖+‖wWT-I‖)
其中,β是一个调节正交损失强度的超参数,W是特征调整层的权重,WT是其对应的转置矩阵,I是单位矩阵。
8.任务牵引的特征蒸馏深度神经网络学习训练系统,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现如权利要求1-7中任一项所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于交叉信息核心技术研究院(西安)有限公司,未经交叉信息核心技术研究院(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030206.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:呼损数据处理方法及装置
- 下一篇:一种四连杆独立悬架后转向节





