[发明专利]基于自监督机制和区域建议网络的场景分类方法及装置在审

申请号：	201911311035.6	申请日：	2019-12-18
公开（公告）号：	CN111062441A	公开（公告）日：	2020-04-24
发明（设计）人：	王嘉乐;邹炼;范赐恩;陈丽琼;程谟凡;胡诗咏	申请（专利权）人：	武汉大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/46;G06N3/04;G06N3/08
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	张宇
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督机制区域建议网络场景分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自监督机制和区域建议网络的场景分类方法，其特征在于，包括：

(1)获取目标场景分类图像数据集，根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集；

(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；

(3)采用自监督机制对网络的损失函数进行优化设计，其中，所述损失函数包括三个部分，共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新；

(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练；

(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中，得到最终的场景分类概率。

2.根据权利要求1所述的方法，其特征在于，在步骤(2)中，构建用于提取特征的基网络，包括：

构建用于提取图片深层特征的基网络，其中，对于任一张原始图片，通过所述基网络得到关于所述原始图片的两个中间特征：最后一层卷积层输出的特征图F_p，全局池化层输出的全局特征F_g，并且得到使用所述全局特征进行分类的场景类别概率R_g，R_g为C×1的向量，C表示所述目标场景分类图像数据集中的场景类别的数量。

3.根据权利要求2所述的方法，其特征在于，在步骤(2)中，构建用于提取局部具有可判别信息区域的区域建议网络，包括：

所述区域建议网络共享所述基网络的特征图F_p，经过一个卷积层使所述特征图F_p变换坐标空间，再经过一个卷积层，输出以所述特征图F_p中每个像素点为中心、尺寸为h×w的局部区域的得分S，其中，h表示该局部区域高度，w表示该局部区域宽度；

根据所述区域建议网络中各局部区域的得分S，使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域，将各所述目标局部区域裁剪并调整分辨率后，输入所述基网络中得到全局池化层输出的M个局部特征F_r，并且得到M个局部区域的场景类别概率R_r,R_r为C×1的向量。

4.根据权利要求3所述的方法，其特征在于，构建用于合并不同尺度特征的联合网络，包括：

所述联合网络由全连接层和softmax组成，将所述全局特征F_g和所述M个局部特征F_r进行联合，得到最终的预测场景类别结果R，R为C×1的向量。

5.根据权利要求4所述的方法，其特征在于，步骤(3)包括：

(3.1)使用类别分类损失对所述基网络的参数进行修正，其中，所述类别分类损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差；

(3.2)使用排序损失对所述区域建议网络的参数进行修正，以反映所述区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系；

(3.3)对于所述联合网络，设计联合损失表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差。

6.根据权利要求5所述的方法，其特征在于，所述类别分类损失为：其中，Y为真实场景类别，C()为交叉熵损失函数，R_g为由所述基网络得到的场景类别概率，R_r表示由所述区域建议网络得到的场景类别概率，M表示由所述区域建议网络得到的目标局部区域的个数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911311035.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种整流变压电解系统
下一篇：轴承剩余寿命预测模型建立方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于自监督机制和区域建议网络的场景分类方法及装置在审

专利文献下载