[发明专利]一种自适应确定目标尺寸和感受野大小的方法有效
申请号: | 202110449343.6 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113378876B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 许雯;孟朝晖 | 申请(专利权)人: | 河海大学 |
主分类号: | G06V10/70 | 分类号: | G06V10/70;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 确定 目标 尺寸 感受 大小 方法 | ||
1.一种自适应确定目标尺寸和感受野大小的方法,其特征在于,该方法包括如下步骤:
Step1:对原始分辨率448*256的图片进行ResNet-50网络卷积操作提取特征图featuremaps,将卷积中的乘法换成加法操作,具体操作如下:
其中,Y(m,n,t)表示输出坐标为(m,n)第t个通道的值,X(m+i,n+j,k)表示输入坐标为(m+i,n+j)的第k个通道的值,cin为原始输入图片的通道,F(i,j,k,t)是过滤器,也为权值矩阵,过滤器大小为d*d,经过ResNet-50网络卷积得到28*16*256的特征图,用于区域候选框提取RPN和感兴趣区域池化ROIPooling共享;
Step2:定义九个边界框尺寸,候选框尺寸如下:
{[2,2],[2,4],[2,8],[4,2],[4,4],[4,8],[8,2],[8,4],[8,8]};
Step3:选取公共数据集ImageNet,包括训练集和测试集,训练集中的图片由两部分组成:一是未做任何标注的图片,二是与图片对应的图片中真实目标框的坐标信息,选取ImageNet中部分训练集做实验数据,自行创建一个txt文本文件,存储训练集中真实目标框的坐标信息;
Step4:根据ResNet-50提取特征图28*16*256标注的原始框,使用RPN提取其中的边界框,下面根据与真实框的映射每个位置增加一个偏移量offset:
其中,p0表示输出的像素坐标,坐标表示为:R={[-1,-1],[-1,0],[-1,1],[0,-1],[0,0],[0,1],[1,-1],[1,0],[1,1]},pn遍历R中的每一个点,Δpn表示偏移量,w(pn)为过滤器每个位置的权重;
(1)把原来的卷积过程分成两路,一路学习偏移量Δpn,得到2N*H*W的输出,N=|R|表示R是前面公式表示的3*3矩阵,加绝对值表示获取矩阵中点的个数,也就是9,2N是有x、y两个方向的偏置,H、W分别为特征图的高和宽,Δpn是一个预设的小数,采用双线性插值法,获取特征图两个相邻斜对角左下(x1,y1)、右上(x2,y2)坐标之间的值,公式为:
其中,f(x1,y1)、f(x2,y1)、f(x1,y2)、f(x2,y2)分别为四个坐标对应的值,f(x,y)为插值后得到的值;
(2)使用3*3的滑动卷积窗口对特征图做卷积操作,得到28*16个向量,每个向量256维;
(3)对整个特征图做两次1*1的卷积,产生两块layer,一块是cls layer,维度为2*H*W,表示分类这块区域是前景或背景;另一块是reglayer,维度为4*H*W,表示预测出相对于原图偏移的Δx,Δy,Δw,Δh位置;
Step5:对于cls layer分类,对前景和背景分别用正样本1和负样本0进行标签,计算原始标注框与边界框的交集面积I和并集面积U,得到一个面积比值IOU:
IOU=I/U
对这个比值进行过滤,筛选出与任意一个原始标注框的IOU重叠部分大于0.7的边界框作为正样本标签,与任意一个原始标注框的IOU重叠部分小于0.3的边界框作为负样本标签,分类学习的损失函数为:
其中,Lcls为回归损失函数,pi为anchor预测为目标的概率,只有两个值,pi=0表示预测目标失败为背景框,pi=1表示预测目标成功为目标框;表示训练集真实标注框:表示负标签,表示正标签;
Step6:对于reg layer回归,通过不断训练收敛得到的特征图中点的四个值:xr、yr、hr、wr,表示预测的边界盒的四个坐标参数,与原始标注框坐标差值在预设范围内,使其收敛趋于原始标注框的坐标,回归损失函数为:
其中,Lreg为回归损失函数,ti={xr,yr,wr,hr}表示预测的边界盒的四个坐标参数,是目标标注框的四个坐标参数,R()为计算预测边界盒参数收敛于目标标注框参数的函数;
Step7:通过step5和step6的分类和回归操作之后,对由边界框变成由RPN给出的候选框进行筛选;
Step8:提出了ROI pooling感兴趣区域池化实现训练和测试的加速,并提高了检测的精度,感兴趣区域池化层有两个输入:一是经过基础网络卷积和池化后的固定大小的特征图;二是表示感兴趣区域ROI的N*5的矩阵,其中N表示感兴趣区域ROI的数目,第一列表示图像索引,之后四列表示图像感兴趣区域的左上角和右下角坐标的信息,技术方案如下:
(1)根据输入图像,将ROI映射到特征图对应位置;
(2)将映射后的区域划分为相同大小的部分,部分数量与输出的维度相同;
(3)对每个部分进行max pooling最大值池化操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110449343.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物肥料施肥系统
- 下一篇:一种直接3D打印的复合功能材料及打印方法