[发明专利]一种自适应确定目标尺寸和感受野大小的方法有效

专利信息
申请号: 202110449343.6 申请日: 2021-04-25
公开(公告)号: CN113378876B 公开(公告)日: 2022-11-15
发明(设计)人: 许雯;孟朝晖 申请(专利权)人: 河海大学
主分类号: G06V10/70 分类号: G06V10/70;G06N3/04;G06N3/08
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 罗运红
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自适应 确定 目标 尺寸 感受 大小 方法
【权利要求书】:

1.一种自适应确定目标尺寸和感受野大小的方法,其特征在于,该方法包括如下步骤:

Step1:对原始分辨率448*256的图片进行ResNet-50网络卷积操作提取特征图featuremaps,将卷积中的乘法换成加法操作,具体操作如下:

其中,Y(m,n,t)表示输出坐标为(m,n)第t个通道的值,X(m+i,n+j,k)表示输入坐标为(m+i,n+j)的第k个通道的值,cin为原始输入图片的通道,F(i,j,k,t)是过滤器,也为权值矩阵,过滤器大小为d*d,经过ResNet-50网络卷积得到28*16*256的特征图,用于区域候选框提取RPN和感兴趣区域池化ROIPooling共享;

Step2:定义九个边界框尺寸,候选框尺寸如下:

{[2,2],[2,4],[2,8],[4,2],[4,4],[4,8],[8,2],[8,4],[8,8]};

Step3:选取公共数据集ImageNet,包括训练集和测试集,训练集中的图片由两部分组成:一是未做任何标注的图片,二是与图片对应的图片中真实目标框的坐标信息,选取ImageNet中部分训练集做实验数据,自行创建一个txt文本文件,存储训练集中真实目标框的坐标信息;

Step4:根据ResNet-50提取特征图28*16*256标注的原始框,使用RPN提取其中的边界框,下面根据与真实框的映射每个位置增加一个偏移量offset:

其中,p0表示输出的像素坐标,坐标表示为:R={[-1,-1],[-1,0],[-1,1],[0,-1],[0,0],[0,1],[1,-1],[1,0],[1,1]},pn遍历R中的每一个点,Δpn表示偏移量,w(pn)为过滤器每个位置的权重;

(1)把原来的卷积过程分成两路,一路学习偏移量Δpn,得到2N*H*W的输出,N=|R|表示R是前面公式表示的3*3矩阵,加绝对值表示获取矩阵中点的个数,也就是9,2N是有x、y两个方向的偏置,H、W分别为特征图的高和宽,Δpn是一个预设的小数,采用双线性插值法,获取特征图两个相邻斜对角左下(x1,y1)、右上(x2,y2)坐标之间的值,公式为:

其中,f(x1,y1)、f(x2,y1)、f(x1,y2)、f(x2,y2)分别为四个坐标对应的值,f(x,y)为插值后得到的值;

(2)使用3*3的滑动卷积窗口对特征图做卷积操作,得到28*16个向量,每个向量256维;

(3)对整个特征图做两次1*1的卷积,产生两块layer,一块是cls layer,维度为2*H*W,表示分类这块区域是前景或背景;另一块是reglayer,维度为4*H*W,表示预测出相对于原图偏移的Δx,Δy,Δw,Δh位置;

Step5:对于cls layer分类,对前景和背景分别用正样本1和负样本0进行标签,计算原始标注框与边界框的交集面积I和并集面积U,得到一个面积比值IOU:

IOU=I/U

对这个比值进行过滤,筛选出与任意一个原始标注框的IOU重叠部分大于0.7的边界框作为正样本标签,与任意一个原始标注框的IOU重叠部分小于0.3的边界框作为负样本标签,分类学习的损失函数为:

其中,Lcls为回归损失函数,pi为anchor预测为目标的概率,只有两个值,pi=0表示预测目标失败为背景框,pi=1表示预测目标成功为目标框;表示训练集真实标注框:表示负标签,表示正标签;

Step6:对于reg layer回归,通过不断训练收敛得到的特征图中点的四个值:xr、yr、hr、wr,表示预测的边界盒的四个坐标参数,与原始标注框坐标差值在预设范围内,使其收敛趋于原始标注框的坐标,回归损失函数为:

其中,Lreg为回归损失函数,ti={xr,yr,wr,hr}表示预测的边界盒的四个坐标参数,是目标标注框的四个坐标参数,R()为计算预测边界盒参数收敛于目标标注框参数的函数;

Step7:通过step5和step6的分类和回归操作之后,对由边界框变成由RPN给出的候选框进行筛选;

Step8:提出了ROI pooling感兴趣区域池化实现训练和测试的加速,并提高了检测的精度,感兴趣区域池化层有两个输入:一是经过基础网络卷积和池化后的固定大小的特征图;二是表示感兴趣区域ROI的N*5的矩阵,其中N表示感兴趣区域ROI的数目,第一列表示图像索引,之后四列表示图像感兴趣区域的左上角和右下角坐标的信息,技术方案如下:

(1)根据输入图像,将ROI映射到特征图对应位置;

(2)将映射后的区域划分为相同大小的部分,部分数量与输出的维度相同;

(3)对每个部分进行max pooling最大值池化操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110449343.6/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top