[发明专利]基于空间注意力机制的自适应知识蒸馏方法在审
申请号: | 202011165181.5 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112464981A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 王金桥;王童;朱优松 | 申请(专利权)人: | 中科视语(句容)科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06K9/00 |
代理公司: | 南京申云知识产权代理事务所(普通合伙) 32274 | 代理人: | 苏秋丽;王云 |
地址: | 212400 江苏省镇江市句*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 注意力 机制 自适应 知识 蒸馏 方法 | ||
1.基于空间注意力机制的自适应知识蒸馏方法,其特征在于,在特征蒸馏的过程中,通过引入空间注意力机制,学生网络会更加关注难度较大的样本对应的特征区域,忽略难度较小的样本对应的特征区域,从而使学生网络的知识蒸馏过程更加高效和有针对性。
2.根据权利要求1所述的具体基于空间注意力机制的自适应知识蒸馏方法,其特征在于,包括以下步骤:
(1)评估样本的难易程度:在训练检测器的过程中,网络会对每一个样本产生分类损失和回归损失,采用样本分类损失值评估样本的难易程度,如果样本分类损失值大于阈值,则该样本进入步骤(2);如果样本分类损失值小于阈值,则忽略该样本;
(2)构建空间注意力图:使用单调递增函数为每一个进入该步骤的样本赋予一个蒸馏权重值;将每一个样本的蒸馏权重值映射到教师网络特征图对应的空间位置,得到和特征图大小相同的空间注意力图;
(3)完成学习过程:利用空间注意力图对教师网络的特征图的每个位置进行加权,指导学生网络的学习过程。
3.根据权利要求1或2所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,所述教师网络为在PASCAL VOC数据集上训练一个VGG16-SSD检测器得到,在进行知识蒸馏过程之前对教师网络进行初始化,结构上只保留主干网络部分。
4.根据权利要求1或2所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,所述学生网络的主干部分选用1/n的VGG16网络,并在学生网络的conv4-3,fc7,conv6-2,conv7-2,conv8-2和conv9-2层上添加检测头、注意力图产生结构以及和教师网络对应层之间的损失函数。
5.根据权利要求2所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,采用如下公式为每一个样本赋予权重值:
wk为样本的蒸馏权重值,lk是样本Sk的分类损失值,α和β为超参数,wmax作为蒸馏权重的上限值。
6.根据权利要求1或2所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,学生网络的通道数比教师网络的通道数少,于是使用一个1*1的卷积层加Relu对学生网络的特征层进行升维,使之达到和对应教师网络特征相同的维度。
7.根据权利要求2所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,采用两个损失函数监督学生网络的学习过程,所述两个损失函数分别是目标检测器正常的检测损失函数和注意力机制引导的蒸馏损失函数,其中目标检测器正常的检测损失函数包括分类损失函数和回归损失函数。
8.根据权利要求7所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,样本的总体损失函数为:
Ltotal=Ldet+λ1Ldis;
检测损失函数的形式为:
Ldet=Lcls+λ2Lreg;
注意力机制引导的蒸馏损失函数为一个加权的L2范数损失函数,具体为:
其中,Ltotal为样本的总体损失函数,Ldet为检测损失函数,Ldis为注意力机制引导的蒸馏损失函数,Lcls为分类损失函数,Lreg为回归损失函数,λ1和λ2为不同损失函数之间的平衡因子;M是检测器用来预测的特征层的个数,Am是属于第m个特征层的空间注意力图,Tm是教师网络的特征,R(Sm)是经过升维后的学生网络的特征。
9.根据权利要求2所述基于空间注意力机制的自适应知识蒸馏方法,其特征在于,所述步骤(2),阈值为0.01。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科视语(句容)科技有限公司,未经中科视语(句容)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011165181.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能稳流通风柜
- 下一篇:一种错排双层撑板及塔设备与应用