[发明专利]一种基于特征融合网络的野生动物视频目标检测方法在审
| 申请号: | 202310011137.6 | 申请日: | 2023-01-05 |
| 公开(公告)号: | CN116092121A | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 申富饶;肖伟康;赵健 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/52;G06V10/80 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
| 地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 融合 网络 野生动物 视频 目标 检测 方法 | ||
1.一种基于特征融合网络的野生动物视频目标检测方法,其特征在于,包括如下步骤:
步骤1,采集野生动物视频和图像数据Databird,并标注得到完整包含目标的最小矩形框的左上角坐标值和长宽值,以及目标的类别信息,组成标签Labelbird;
步骤2,对采集到的野生动物数据Databird进行数据预处理,其中对采集到的图像数据进行形态变换、色彩变换和轮廓破坏预处理,对采集到的视频数据进行轮廓破坏预处理,得到预处理完成的数据集Datapreprocess;
步骤3,将预处理得到的数据集Datapreprocess输入到特征提取网络Modelselect进行特征提取,得到多个尺度的特征即多尺度特征FMselect;
步骤4,将多尺度特征输入到特征融合网络Modelfuse,进行特征融合;对于数据集Datapreprocess中的视频数据融合相邻图像帧同尺度特征和同一图像帧的不同尺度特征,并保存每一帧融合后的特征;对于数据集Datapreprocess中的图像数据仅融合该图像不同尺度特征,最后得到多尺度融合特征FMfuse;
步骤5,将多尺度融合特征FMfuse输入到预测网络Modelpredict中,得到多个尺度的预测框左上角坐标和长宽值,以及预测框中目标所属类别,使用NMS算法合并重复的检测结果,得到最后的预测值Ypredict;
步骤6,在网络训练阶段,使用损失函数Loss计算预测结果Ypredict和实际的标签Labelbird之间的损失值,从预测网络Modelpredict开始反向传播,固定特征融合网络Modelfuse中的相邻图像帧特征融合模块的参数,更新特征融合网络Modelfuse中的多尺度特征融合模块的参数;
步骤7,在网络推理阶段,将待检测目标的图像数据的网络预测结果Ypredict直接作为最后的输出Youtput,对于视频数据的预测结果Ypredict,根据实际应用场景,进行后处理过滤,得到Youtput。
2.根据权利要求1所述的一种基于特征融合网络的野生动物视频目标检测方法,其特征在于,步骤2中所述轮廓破坏预处理,具体方法包括如下步骤:
步骤2-1,设置随机初始值r=random(0,1);
步骤2-2,当r<0.5,将原图不做任何修改直接输出;
步骤2-3,当r≥0.5,对于第i个图像中的第j个检测目标其左上角坐标为(xi,j,yi,j),长度为wi,j,宽度为hi,j;
步骤2-4,计算遮挡宽度方法如下:
计算遮挡间隔方法如下:
步骤2-5,从检测目标左上角像素开始,从左往右,每隔个像素,将个像素的像素值设置为0,直到超出检测目标的像素范围;
按所述方法,从上往下处理检测目标的每一行像素。
3.根据权利要求2所述的一种基于特征融合网络的野生动物视频目标检测方法,其特征在于,步骤3所述进行特征提取,具体包括如下步骤:
步骤3-1,训练阶段,在特征提取网络Modelselect中,先输入所述野生动物视频和图像数据Databird中的图像数据,随后输入视频数据;
步骤3-2,特征提取网络Modelselect中,选择使用Darknet53网络模型,提取三个不同尺度的特征;
步骤3-3,对于图像数据直接提取得到多尺度特征FMselect;
步骤3-4,对于视频数据将视频数据拆分成图像帧,每帧图像提取得到对应的多尺度特征FMselect。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310011137.6/1.html,转载请声明来源钻瓜专利网。





