[发明专利]基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备在审
申请号: | 202110121769.9 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112784999A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 黄明飞;姚宏贵;梁维斌;王昊 | 申请(专利权)人: | 开放智能机器(上海)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 党蕾 |
地址: | 200233 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 mobilenet v1 知识 蒸馏 方法 存储器 终端设备 | ||
1.一种基于注意力机制的mobilenet-v1知识蒸馏方法,其特征在于,包括:
分别选择复杂模型以及简单模型对应的特定中间层,用以进行注意图的知识转移;
分别处理得到所述复杂模型和所述简单模型的所述特定中间层所对应的注意力图之间的损失并记为第一损失值,根据所述第一损失值对所述简单模型中的所述特定中间层进行更新;
分别处理获得所述复杂模型和所述简单模型的Logit层的KL散度;
处理获得所述简单模型的交叉熵损失,记为损失值二;
根据所述损失值一、所述KL散度及所述损失值二处理得到总损失;
所述损失值一、所述RL散度、所述损失值二以及所述总损失用以所述简单模型的参数的计算。
2.根据权利1所述的方法,其特征在于,所述进行注意图的知识转移方法包括:
从所述复杂模型的结构中选择预定数量的中间层输出作为计算注意力图的中间层特征图,记为中间特征图一;
从所述简单模型的结构中选择预定数量的中间层输出作为计算注意力图的中间层特征图,记为中间特征图二;
将所述中间特征图一的知识转移给所述中间特征图二。
3.根据权利1所述的方法,其特征在于,处理得到所述简单模型或所述复杂模型的中间层对应的注意力图的方法如下式所示:
设张量A∈RC*H*W为所述的简单模型或复杂模型的某个中间层特征图,即特征图A有C个通道,每个通道为H*W的二维矩阵,则注意力图按照如下公式计算:
其中,注意力图计算结果Q∈RH*W,A(i,:,:)表示第i个通道的H*W二维矩阵。
4.根据权利1所述的方法,其特征在于,处理得到所述复杂模型和所述简单模型的中间层所对应的注意力图之间的损失的方法如下式所示:
其中,表示复杂模型WRN-50-8的第j个注意力图,表示对应的简单模型mobilenet-v1的第j个注意力图,||X||表示计算矩阵X的L2正则。
5.根据权利1所述的方法,其特征在于,计算所述KL散度的方法包括:
所述复杂模型的logit层,是WRN-50-8网络的fc层的输出lT∈R1*1*10;所述的简单模型的logit层,是mobilenet-v1网络的fc层的输出lS∈R1*1*10;
计算所述简单模型和所述复杂模型logit层之间的KL散度,如下式所示:
其中,lT[i]表示复杂模型fc层的输出lT的第i个值;
lS[i]表示简单模型fc层的输出lS的第i个值;T表示温度参数,这里取值为4。
6.根据权利1所述的方法,其特征在于,处理获得所述简单模型的交叉熵损失的方法包括,将简单模型softmax层的输出与训练数据的真值标签计算交叉熵损失Lce。
7.根据权利1所述的方法,其特征在于,计算所述总损失的方法如下式所示:
ltotal=α*Lkl+(1-α)*Lce+β*LAT
其中,参数α取值为0.9,参数β取值为1000,Lkl表示KL散度,Lce表示交叉熵损失,LAT表示注意力图之间的损失。
8.一种非易失性存储器,其中存储有软件,其特征在于,所述软件用以实现权利要求1-7中任一所述的基于注意力机制的mobilenet-v1知识蒸馏方法。
9.一种终端设备,包括一个或多个处理器和与其耦合的一个或多个存储器,其特征在于,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
所述一个或多个处理器用于执行所述计算机指令并实现权利要求1-7中任一所述的基于注意力机制的mobilenet-v1知识蒸馏方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于开放智能机器(上海)有限公司,未经开放智能机器(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110121769.9/1.html,转载请声明来源钻瓜专利网。