[发明专利]基于改进的注意力机制FairMOT多类别跟踪方法在审
| 申请号: | 202111662790.6 | 申请日: | 2021-12-31 |
| 公开(公告)号: | CN114241053A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 杨志伟;同磊;段娟;肖创柏 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06T7/73 | 分类号: | G06T7/73;G06V20/40;G06V20/52;G06V10/774;G06V10/80;G06V10/82;G06V10/98;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 改进 注意力 机制 fairmot 类别 跟踪 方法 | ||
1.基于改进的注意力机制FairMOT多类别跟踪方法,其特征在于:该方法包括如下步骤,
步骤1、首先对无人机数据集进行预处理;
无人机数据集为VisDrone系列公开数据集和UAVDT公开数据集;首先要对无人机数据集的标签进行转换;根据无人机数据集的原始标签中每个目标的遮挡程度对数据集中遮挡严重的目标或区域进行遮罩预处理;
步骤2、构建网络模型;
在对无人机数据集的数据进行预处理之后,构建网络模型;网络模型由三部分构成,依次是:加入了卷积注意力机制模块CBAM的encoder-decoder骨干网络、目标检测分支以及重识别分支;
Encoder-decoder骨干网络由添加CBAM的DLA34-base卷积神经网络、DLAUP特征融合模块和IDAUP特征融合模块组成,对输入的图像数据进行特征提取,获得输入图像的空间信息和语义信息,在准确率和速度之间保持平衡;
目标检测分支建立在CenterNet之上,对encoder-decoder骨干网络输出的特征图进行目标检测,由三个平行的检测头组成,分别为heatmap检测头、box size检测头以及centeroffset检测头;heatmap检测头、box size检测头以及center offset检测头使用的是TTFNet算法中的heatmap检测头与wh检测头,用来预测骨干网络输出的特征图中目标的中心点以及目标的边界框,center offset检测头则为本模型新添加的检测头,同上述两个检测头一样,用来预测目标中心点的偏移量;
重识别分支根据目标检测分支检测到的目标中心点位置,到encoder-decoder骨干网络中提取目标的re-ID表征特征,再通过匈牙利算法和卡尔曼滤波算法,将相邻帧之间的同一目标进行匹配,为它们分配相同的ID值,进而形成其在连续图像序列中连贯的追踪轨迹;
步骤3、训练网络;
数据和模型分别处理好之后开始进行训练;训练过程分为四步,即数据加载与增强、骨干网络的训练、目标检测分支的训练、重识别分支的训练;
步骤4、多类别多目标追踪算法的性能评估;
模型训练完成之后进行测试;在测试过程中,将每一帧追踪到的目标的详细信息保存在一个txt文件中,然后根据这个txt文件中的信息,将追踪到的目标可视化,包含其所属类别、边界框、目标的id值以及显示其在连续图像序列中运动过的轨迹;此外通过将该txt追踪结果与真实标签进行比对,计算出追踪算法的相关评价指标的结果。
2.根据权利要求1所述的基于改进的注意力机制FairMOT多类别跟踪方法,其特征在于:步骤1中具体包括:在原始的数据集中,UAVDT数据集一共有3个类别:0号类别代表car类,1号类别代表truck类,2号类别代表bus类;VisDrone2019数据集一共有12个类别:0号类别代表ignore regions,1号类别代表pedestrian类,2号类别代表people类,3号类别代表bicycle类,4号类别代表car类,5号类别代表van类,6号类别代表truck类,7号类别代表tricycle类,8号类别代表awning-tricycle类,9号类别代表bus类,10号类别代表motor类,11号类别代表others类;通过标签转换统一数据集的car类标签为3,truck类标签为5,bus类标签为8,其余类别标签在原标签基础上减1,ignore region类和others类被剔除;在UAVDT数据集中随机选取了七个序列作为的测试数据集,序列为:M0204、M0208、M0402、M0702、M1005、M1008以及M1302。
3.根据权利要求1所述的基于改进的注意力机制FairMOT多类别跟踪方法,其特征在于:步骤2中具体包括:添加CBAM的DLA34-base卷积神经网络通过在卷积神经网络中引入空间注意力机制和通道注意力机制,使卷积神经网络的特征提取性能提升,为目标检测和重识别分支提供特征图;
DLAUP特征融合模块的作用是将骨干网络中不同模块间的特征进行融合,提升网络模型表达能力,降低随着网络深度的增加出现的网络退化;IDAUP特征融合模块的作用是将骨干网络中不同层级间的特征进行融合。
4.根据权利要求1所述的基于改进的注意力机制FairMOT多类别跟踪方法,其特征在于:
步骤3中具体包括:(3a)首先加载数据并对数据进行增强;预先为无人机数据集设定多组不同宽高的尺寸作为输入图像的缩放尺度,在加载数据的过程中随机选择预设尺度中的一组,将图像缩放到该指定尺寸之后再输入骨干网络;
(3b)对骨干网络的训练;DLAUP特征融合模块与IDAUP特征融合模块与FairMOT模型中相同,而DLA-34网络中在原网络的Level0层之前与Level5层之后分别添加了一个CBAM注意力模块,注意力模块在通道和空间维度上进行attention,在level0层之前和level5层之后添加注意力模块既可以保证的模型能够使用预训练的权重又能将注意力机制引入的模型;通过将注意力机制引入的模型,图像数据能够在骨干网络中保持丰富的空间信息和语义信息,以供后边的目标检测分支和行人重识别分支使用;在骨干网络的训练中,加载使用FairMOT算法的预训练权重,将数据增强后的图像输入网络中,通过网络提取图像中丰富的特征信息,作为后续分支的输入数据;
(3c)对目标检测分支的训练;
目标检测分支的训练是将骨干网络输出的特征图作为本分支的输入,通过不同的检测头完成目标中心点、目标边界框以及目标中心点偏移量的预测;该分支由heatmap检测头、center offset检测头和box size检测头三个平行检测头构成;
Heatmap检测头分支负责估计对象中心的位置,采用基于热图的表示法;不同通道的heatmap能够预测不同的类别,即在car类对应通道的heatmap中,只负责估计car这一类对象的中心点的位置;Center offset检测头分支负责精准地定位对象,re-ID功能与对象中心的对齐精准度对于性能至关重要;Box size检测头分支负责估计每个锚点位置的目标边界框的高度和宽度;
目标检测分支的训练流程是将骨干网络提取到的特征图传给目标检测分支的三个检测头,在heatmap检测头中每个通道的heatmap对特征图中可能存在的本类目标的中心点位置进行预测,以此预测当前特征图中该类别目标的个数及其中心点位置,然后将预测结果与真实标签的heatmap值进行比较,使用变形的focal loss损失函数求得heatmap检测头的损失值;center offset检测头负责更精确地定位对象,该检测头根据输入的特征图预测目标的中心点的偏移量,并将预测的结果与真实标签中目标的中心点位置进行比较,通过L1loss损失函数计算中心点偏移量的损失值,作为center offset检测头的损失值;box size检测头负责根据特征图估计每个锚点处目标边界框的高度和宽度,通过将预测的高度和宽度与真实标签中的高度和宽度进行比较,通过L1 loss损失函数计算目标边框尺寸的损失值,作为box size检测头的损失值;在得到上述三个检测头的损失值后,通过求和计算出目标检测分支总损失值Ldetection,以便后续使用;
(3d)对重识别分支的训练;
应用128个内核的卷积层在骨干特征之上提取每个目标的re-ID特征,得到特征映射,从特征映射中提取目标的re-ID特征;将得到的特征映射与标签中真实目标的特征映射进行比较,通过交叉熵损失函数计算得到行人重识别分支的损失值;
(3e)反向传播进行网络权重更新
根据得到的损失值,按照预设的不同的权重值将两个模块得到的损失值加权求和并加上权重作为整个模型的损失值进行反向传播,调整优化网络中的参数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111662790.6/1.html,转载请声明来源钻瓜专利网。





