[发明专利]一种基于知识蒸馏的半监督视频目标分割方法有效
申请号: | 202310677219.4 | 申请日: | 2023-06-08 |
公开(公告)号: | CN116402833B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 余锋;李会引;姜明华;周鑫磊;刘莉;周昌龙;宋坤芳 | 申请(专利权)人: | 武汉纺织大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10;G06N3/096;G06N3/0895;G06N3/0455 |
代理公司: | 武汉世跃专利代理事务所(普通合伙) 42273 | 代理人: | 万仲达 |
地址: | 430073 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 监督 视频 目标 分割 方法 | ||
1.一种基于知识蒸馏的半监督视频目标分割方法,其特征在于,包括以下步骤:
步骤1,构建两种不同大小的半监督视频目标分割网络架构;
所述步骤1中两种不同大小的半监督视频目标分割网络框架有三条分支;第1条分支用于提取第1帧和前一视频帧的空间特征,第2条分支用于生成当前帧与前一视频帧的光流信息图,并根据前一帧的预测掩码和生成的光流信息图通过运动投影生成当前帧的掩码,训练时除了第一帧是使用的人工标注的真实掩码,其他帧都是使用的第2条分支生成的掩码代替真实掩码,第3条分支用于提取当前帧图片的空间特征;
其中,第1条分支和第3条分支的结构相同,都由K层特征编码层组成,所述特征编码层包括若干个特征编码卷积模块;第2条分支采用的是现有的光流生成网络FlowNet,其中两种不同大小的半监督视频目标分割网络体现在第1条分支和第3条分支中特征编码层中特征编码卷积模块数量的不同;
第1条分支和第3条分支输出的特征图为输入视频帧的1/16,三条分支的具体操作为:第1条分支的输出先和第2条分支第4层光流特征编码层的输出进行拼接,然后其输出与第3条分支的输出分别送入特征编码卷积模块中,将得到的两个输出特征图进行相加操作送入解码器,最终输出预测结果;
步骤2,先训练大型半监督视频目标分割网络,得到准确性较高的网络模型;
步骤3,使用知识蒸馏的方法,通过大型半监督视频目标分割网络引导小型视频目标分割网络训练;
步骤4,得到预测准确性与大型半监督视频目标分割网络相似的基于知识蒸馏半监督视频目标分割模型,利用基于知识蒸馏半监督视频目标分割模型实现视频目标分割。
2.如权利要求1所述的一种基于知识蒸馏的半监督视频目标分割方法,其特征在于:所述特征编码卷积模块的具体处理过程如下;
当特征图被送入特征编码卷积模块时,首先进行1×1卷积和Tanh激活层,得到第一个特征图,然后进行5×5的DW卷积,将5×5的DW卷积产生的特征图,分三条支路进行处理,第一条支路进行7×1的DW卷积和1×7的DW卷积,第二条支路进行11×1的DW卷积和1×11的DW卷积,第三条支路进行21×1的DW卷积和1×21的DW卷积,将这三条支路得到的特征图与5×5的DW卷积产生的特征图进行特征图相加操作输出一个中间过程特征图;DW卷积即为深度卷积;
将中间过程特征图进行1×1卷积将通道数调整为1,与得到的第一个特征图进行特征图相乘操作,得到加权特征图,最后将加权特征图依次进行1×1卷积、Tanh激活层、1×1卷积和Tanh激活层,得到特征编码卷积模块的输出特征图。
3.如权利要求1所述的一种基于知识蒸馏的半监督视频目标分割方法,其特征在于:解码器由两层上采样卷积层和一层结果输出层构成,上采样卷积层依次由1×1卷积、Tanh激活层、3×3卷积和四倍上采样层组成,结果输出层依次由3×3卷积和1×1卷积构成。
4.如权利要求1所述的一种基于知识蒸馏的半监督视频目标分割方法,其特征在于:K的取值为4,大型半监督视频目标分割网络中4层特征编码层的特征编码卷积模块分别是3,5,27和3,而小型半监督视频目标分割网络中4层特征编码层的特征编码卷积模块分别2,2,4和2;其中每一层特征编码层中第一个特征编码卷积模块中的第一个1×1卷积的步长为2,用于缩小特征图的高宽,同时增大特征图的通道维度。
5.如权利要求1所述的一种基于知识蒸馏的半监督视频目标分割方法,其特征在于:步骤2中训练大型半监督视频目标分割网络,使用的时间内容一致性损失如下:
;
公式中P(t)代表当前时刻t视频帧预测掩码,G(t)代表当前时刻t视频帧真实掩码,λt1是时刻t的损失权重,λt2是时刻t-1的损失权重,ε是t-1时刻和t时刻内容一致性权重;
其中Lc表示目标一致性损失,计算公式如下:
;
公式中N代表视频帧掩码中的像素数量,C代表类别数量,pij代表第i个像素的第j个类别的预测概率,gij代表第i个像素的第j个类别的真实标签,γj可控参数用于调节易分类类别和难分类类别的重视程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310677219.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中继保植无人机系统及其充电方法
- 下一篇:空调装置的温度控制方法和系统