[发明专利]一种基于深度特征的实时图像语义分割方法有效
申请号: | 202110767097.9 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113537228B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 李爽;金一;姜天姣;赵茜;李雅宁;梁晓虎;祝瑞辉;张衡;黄璐;贾浩男;程建强;陈冲 | 申请(专利权)人: | 中国电子科技集团公司第五十四研究所 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/44;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 河北东尚律师事务所 13124 | 代理人: | 王文庆 |
地址: | 050081 河北省石家庄市*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 特征 实时 图像 语义 分割 方法 | ||
本发明公开了一种基于深度特征的实时图像语义分割方法,涉及计算机视觉领域。该方法在双分支网络的浅层部分引入注意力机制,用来更加高效地获取特征,提高模型计算效率,并减少噪声的引入。使用Adam与LookAhead融合的优化器在训练过程中进行学习,减少模型收敛过程中不必要的计算,能够更快地收敛到目标条件。本发明能够显著减少计算开销,使得模型能够进行实时语义分割。
技术领域
本发明涉及计算机视觉领域,特别是图像语义分割领域,提供了一种基于深度特征的实时图像语义分割方法。
背景技术
图像的语义分割问题是一种非常典型的计算机视觉问题,对场景理解来说至关重要,具有广泛的应用前景。随着科学技术的进步,医学影像处理、道路场景理解,甚至游戏画面处理等需要更加快速的语义分割方法的场景越来越多。关于图像语义分割任务,目前主流的方法有两类:第一类是传统的语义分割方法,包括基于阈值、区域、边缘检测的分割方法和基于遗传算法的分割方法等,这类方法较为简单易懂,但容易受到图像中噪声和光照风因素的影响而导致分割效果较差,抑或不能得到区域的分类信息等;第二类则是目前研究较为热门的深度学习方法,随着神经网络的发展和计算机计算性能的提升,卷积神经网络得到了快速发展,全卷积神经网络的提出则使得深度学习方法在计算机视觉领域突飞猛进。在此基础上,SegNet模型采用了对称的编码器-解码器结构,在训练过程中记录了下采样时特征的位置,并在上采样时进行还原,提高了模型输出的分辨率;空洞卷积通过在卷积核之中插入“空洞”以使其增大,这样便在不增加参数数量的基础上扩大了输出单元的感受野面积;RefineNet模型可以使用各个层级的特征,多路搜集图像在进行采样时的信息,尽可能地对全局不同层次的特征进行利用,并采用增加远距离残差连接的方法来进行语义分割;DeepLab v3加入了Batch Normalization层,并设计了并行和串行的空洞卷积模块来对物体进行多尺度分类。
但是现有图像进行语义分割的方法参数量大,在模型的训练过程中,需要较多的硬件资源和较长的时间消耗,给测试环节带来了更多的时间消耗,优化算法在训练过程中不是每次迭代都向着整体的最优化方向,并且由于更新比较频繁,会造成损失函数有比较大的震荡,噪音较多,导致目前基于深度学习的语义分割技术实时性不足,难以广泛应用。
发明内容
有鉴于此,本发明提出一种基于深度特征的实时图像语义分割方法,该方法计算开销小、特征提取能力高、收敛速度快。
为了实现上述目的,本发明采用的技术方案为:
一种基于深度特征的实时图像语义分割方法,包括以下步骤:
(1)将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;
(2)计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;
(3)加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型。
进一步的,步骤(1)中图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所,未经中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110767097.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小型高精度深腔四脊波导圆极化器的加工方法
- 下一篇:一种管子钳