[发明专利]一种自适应确定目标尺寸和感受野大小的方法有效

申请号：	202110449343.6	申请日：	2021-04-25
公开（公告）号：	CN113378876B	公开（公告）日：	2022-11-15
发明（设计）人：	许雯;孟朝晖	申请（专利权）人：	河海大学
主分类号：	G06V10/70	分类号：	G06V10/70;G06N3/04;G06N3/08
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	罗运红
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自适应确定目标尺寸感受大小方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自适应确定目标尺寸和感受野大小的方法，其特征在于，该方法包括如下步骤：

Step1：对原始分辨率448*256的图片进行ResNet-50网络卷积操作提取特征图featuremaps，将卷积中的乘法换成加法操作,具体操作如下：

其中，Y(m，n，t)表示输出坐标为(m，n)第t个通道的值，X(m+i，n+j，k)表示输入坐标为(m+i，n+j)的第k个通道的值，c_in为原始输入图片的通道，F(i，j，k，t)是过滤器，也为权值矩阵,过滤器大小为d*d，经过ResNet-50网络卷积得到28*16*256的特征图，用于区域候选框提取RPN和感兴趣区域池化ROIPooling共享；

Step2:定义九个边界框尺寸，候选框尺寸如下：

{[2,2],[2,4],[2,8],[4,2],[4,4],[4,8],[8,2],[8,4],[8,8]}；

Step3：选取公共数据集ImageNet，包括训练集和测试集，训练集中的图片由两部分组成：一是未做任何标注的图片，二是与图片对应的图片中真实目标框的坐标信息，选取ImageNet中部分训练集做实验数据，自行创建一个txt文本文件，存储训练集中真实目标框的坐标信息；

Step4：根据ResNet-50提取特征图28*16*256标注的原始框，使用RPN提取其中的边界框，下面根据与真实框的映射每个位置增加一个偏移量offset：

其中，p₀表示输出的像素坐标，坐标表示为：R＝{[-1,-1],[-1,0],[-1,1],[0,-1],[0,0],[0,1],[1,-1],[1,0],[1,1]},p_n遍历R中的每一个点，Δp_n表示偏移量，w(p_n)为过滤器每个位置的权重；

(1)把原来的卷积过程分成两路，一路学习偏移量Δp_n，得到2N*H*W的输出，N＝|R|表示R是前面公式表示的3*3矩阵，加绝对值表示获取矩阵中点的个数，也就是9，2N是有x、y两个方向的偏置，H、W分别为特征图的高和宽，Δp_n是一个预设的小数，采用双线性插值法，获取特征图两个相邻斜对角左下(x₁，y₁)、右上(x₂，y₂)坐标之间的值，公式为：

其中，f(x₁,y₁)、f(x₂,y₁)、f(x₁,y₂)、f(x₂,y₂)分别为四个坐标对应的值，f(x,y)为插值后得到的值；

(2)使用3*3的滑动卷积窗口对特征图做卷积操作，得到28*16个向量，每个向量256维；

(3)对整个特征图做两次1*1的卷积，产生两块layer，一块是cls layer，维度为2*H*W，表示分类这块区域是前景或背景；另一块是reglayer，维度为4*H*W，表示预测出相对于原图偏移的Δx,Δy,Δw,Δh位置；

Step5：对于cls layer分类，对前景和背景分别用正样本1和负样本0进行标签，计算原始标注框与边界框的交集面积I和并集面积U，得到一个面积比值IOU：

IOU＝I/U

对这个比值进行过滤，筛选出与任意一个原始标注框的IOU重叠部分大于0.7的边界框作为正样本标签，与任意一个原始标注框的IOU重叠部分小于0.3的边界框作为负样本标签，分类学习的损失函数为：

其中，L_cls为回归损失函数，p_i为anchor预测为目标的概率，只有两个值，p_i＝0表示预测目标失败为背景框，p_i＝1表示预测目标成功为目标框；表示训练集真实标注框：表示负标签，表示正标签；

Step6：对于reg layer回归，通过不断训练收敛得到的特征图中点的四个值：x_r、y_r、h_r、w_r，表示预测的边界盒的四个坐标参数，与原始标注框坐标差值在预设范围内，使其收敛趋于原始标注框的坐标，回归损失函数为：

其中，L_reg为回归损失函数，t_i＝{x_r，y_r，w_r，h_r}表示预测的边界盒的四个坐标参数，是目标标注框的四个坐标参数，R()为计算预测边界盒参数收敛于目标标注框参数的函数；

Step7：通过step5和step6的分类和回归操作之后，对由边界框变成由RPN给出的候选框进行筛选；

Step8：提出了ROI pooling感兴趣区域池化实现训练和测试的加速，并提高了检测的精度，感兴趣区域池化层有两个输入：一是经过基础网络卷积和池化后的固定大小的特征图；二是表示感兴趣区域ROI的N*5的矩阵，其中N表示感兴趣区域ROI的数目，第一列表示图像索引，之后四列表示图像感兴趣区域的左上角和右下角坐标的信息，技术方案如下：

(1)根据输入图像，将ROI映射到特征图对应位置；

(2)将映射后的区域划分为相同大小的部分，部分数量与输出的维度相同；

(3)对每个部分进行max pooling最大值池化操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110449343.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种生物肥料施肥系统
下一篇：一种直接3D打印的复合功能材料及打印方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自适应确定目标尺寸和感受野大小的方法有效

专利文献下载