[发明专利]基于多尺度结构的实时语义分割方法有效
申请号: | 202110867844.6 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113313721B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 练智超;贾稀贝;刘悦;陶叔银 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T7/194;G06N3/04;G06N3/08 |
代理公司: | 南京申云知识产权代理事务所(普通合伙) 32274 | 代理人: | 田沛沛;邱兴天 |
地址: | 210094 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 结构 实时 语义 分割 方法 | ||
1.一种基于多尺度结构的实时语义分割方法,其特征在于,对语义信息分支进行高维特征提取;建立上下文语义分支和空间分支;语义特征和空间特征输入特征融合模块进行特征融合,最终输出对应的预测图,实现语义分割任务;具体包括以下步骤:
步骤1:首先利用残差网络完成语义分支的高维特征图提取;
步骤2:构建空间分支,将高维特征图下采样1/4尺寸的特征图经过池化层,并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图,作为特征融合模块的输入之一;将语义分支中ResNet提取特征中的倒数第二层结合上采样操作生成空间分支,作为补充空间细节信息的特征图,ResNet在提取特征过程中并未完全丢失空间信息,上采样操作以更小的计算量生成所需的特征图;另外,利用计算量较少的池化操作从ResNet中第一个Bottleneck的输出获取到原尺寸1/8大小的浅层特征图;
步骤3:构建语义分支,将ResNet的4个Bottleneck对应特征图分别经过卷积层,并在通道维度归一化为128维特征图,之后进行合并、压缩到适合特征融合模块输入的通道维度特征图,再经过上采样模块之后进入特征融合模块,
构建语义分支的具体方式如下:取消解码器阶段的级联结构,并移除原有网络中用于增强特征的ARM和Refines模块,使其仅保留ResNet残差网络的基干结构,结合ResNet四个卷积阶段语义信息和空间信息的变化规律,分别利用4个不同类型的卷积层:5×5、3×3、1×1和1×1大小的卷积核;结合上采样对4个残差阶段的特征图进行卷积操作,使得每个残差阶段均输出128维通道的1/16原图像空间尺寸的特征图;在这一过程中,不同阶段输出的特征图包含不同的层次的信息,低通道64维特征图经过扩张卷积操作获得输出包含丰富的空间信息也同样拥有少量的语义信息,将空间信息转移到了通道维度;而512维特征图经过上采样和标准卷积操作的输出包含丰富的语义信息和少量的空间信息,将语义信息转移到了空间尺度;
利用Concat层合并所有特征图,充分聚合深层、粗略、语义信息和浅层、细节、空间信息;并联结构的4层卷积包括标准卷积与扩张卷积,以应对多个不同尺寸特征图感受野的变化较大的问题,利用扩张卷积在适当缩小特征图的同时增加语义信息;卷积操作与感受野变化定义如下式:
其中,
步骤4:将步骤2步骤3获得的空间特征和语义特征进行特征融合,最终输出对应的预测图,实现语义分割任务;
针对模型的分割推理速度进行评价,采用评价语义分割速度的每秒预测帧数FPS,定义如下式:
其中,
2.根据权利要求1所述的基于多尺度结构的实时语义分割方法,其特征在于:步骤1中高维特征的提取,以ResNet18浅层卷积神经网络作为基干模型,通过网络中预定义的卷积块对输入图像层提取语义特征,最终将图像映射到512维的具有原始图像尺寸1/32的特征图,合理的提取到高维的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110867844.6/1.html,转载请声明来源钻瓜专利网。