[发明专利]一种苗族服饰图像语义分割方法在审
申请号: | 202111371509.3 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114037833A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 覃琴;冯意;王鑫;许文全;颜靖柯 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 罗玉荣 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 苗族 服饰 图像 语义 分割 方法 | ||
1.一种苗族服饰图像语义分割方法,其特征在于,包括如下步骤:
1)数据增强:采用Mosaic数据增强的方法,将苗族服饰四张图像合成一张图像、提取四张图像特征信息,所述数据增强是指对图片裁剪、翻转、旋转、缩放、扭曲几何变换及像素扰动、添加噪声、光照调节、对比度调节、样本加和或插值、分割补丁;
2)编码:采用基于多尺度渐进式注意力学习金字塔网络模型MutilPPL将输入的服饰图片经过卷积的3次下采样操作,每次下采样操作将特征图的长和宽缩小2倍、通道数扩大2倍,然后将卷积输出的特征图逐层传入不同尺度的特征层进行特征融合;
3)解码:将MutilPPL模型中的编码器和解码器的特征层进行密集跨级连接,使MutilPPL模型提取服饰多尺度特征信息,再采用金字塔结构融合特征局部与全局信息,最后在解码器中进行3次转置卷积逐步恢复高分辨率图像,得到语义分割结果,MutilPPL模型中的解码器结构与编码器结构对称,解码器每次采用转置卷积操作,将特征图尺寸扩大2倍、通道数缩小2倍;
4)辅助分支结构:辅助分支结构由Conv-Classes模块、渐进式注意力学习金字塔结构(PPL)模块、Softmax分类器3个部分组成,定义编码器中的Layer6、Layer 7、Layer 8作为辅助分支结构的输入,其中,Conv-Classes模块设有转置卷积和1×1卷积,且在每个1×1卷积后面都加上实例化归一化(Instance Normalization,简称IN)和ACON激活函数,将Layer6、Layer 7、Layer 8输入到Conv-Classes模块中得到不同类别的置信系数,然后将不同置信系数的通道进行连接并进行1×1卷积操作,并将它们的特征信息交叉输入到两个PPL模块中,每个PPL模块的输出都进行一次1×1卷积操作,最后将PPL模块聚合的多层特征输入到Softmax分类器实现最终的输出,
具体是:Layer 6和Layer 7对应浅和中层网络,而Layer 8对应深层网络,首先,解码器根据不同层次的深度的卷积层Layer 6、Layer 7、Layer 8划分不同的阶段,获得不同语义的特征信息,每个阶段通过转置卷积得到相同大小的特征图,并经过卷积,得到不同阶段的不同类别置信系数;然后,将不同置信系数的通道进行连接,同时将它们的特征信息交叉输入到渐进式注意力学习金字塔结构(PPL),使网络能够合理利用不同阶段学习的特征,专注有效特征提取,丢弃冗余特征;最后,将渐进式注意力学习金字塔结构聚合的多层特征输入到Softmax分类器实现最终的输出,辅助分支结构在解码过程中分别提取三次转置卷积的输出特征,利用1×1卷积层将特征通道减少为7,并将卷积的结果进行融合;
5)实现语义分割:采用Softmax激活函数对特征图进行分类,实现语义分割。
2.根据权利要求1所述的苗族服饰图像语义分割方法,其特征在于,所述MutilPPL模型为中密集跨级连接网络采用两级结构,第一级结构在编码器部分将低尺度和中等尺度的特征图进行融合,第二级结构将融合后的结果作为整体再与高尺度特征图进行融合,密集跨级连接网络具体实现过程为:首先,在编码器路径上将下采样的输入与前特征层输出连接,经过两次卷积运算、并行高语义特征在编码器上;然后,在解码器路径上将编码器路径和解码器路径的特征连接在一起,通过渐进式注意力学习金字塔结构提取自相似性特征,并聚合相似物体外观、位置特征,对于连接不同尺寸和通道数的特征,采用最大池化(3×3、5×5、9×9)和卷积(3×3),确保分辨率相同和通道数一致,其中,在MutilPPL模型中设有5个渐进式注意力学习金字塔结构,渐进式注意力学习金字塔结构(PPL)由特征提取模块和特征聚合模块组成,定义一对相同大小的跨尺度特征层和作为PPL的输入,其中特征提取模块采用了可变形卷积,计算方式如公式(1)所示:
其中表示可变形卷积运算,表示当前第m层输入的特征图,表示前i层渐进式注意力学习金字塔结构输出的特征图,可变形卷积学习的偏移offset根据输入的和进行计算,计算方式如公式(2)所示:
其中(ΔP)m表示m层的可变卷积偏移,‖表示通道连接,表示卷积运算,将计算得到的可变形卷积偏移作用到可变形卷积运算上得到然后,采用Softmax生成Mask特征级掩码,Mask用于渐进式注意力学习金字塔结构聚集学习最相关的特征,计算方式如公式(3)所示:
采用Softmax对卷积后减去卷积后的结果进行计算,得到m层的Mask特征级掩码,所计算的掩码Mask进一步与可变形卷积的输出相乘聚焦更多的相关特征,计算方式如公式(4)所示:
其中表示矩阵元素乘法运算,掩码Mask与相乘后与进行通道连接,再对其得到的结果进行卷积运算后映射到上得到具有自相似性和跨尺度相似性特征的特征图Fm,至此,模型完成了自相似性和跨尺度相似性特征提取,
特征聚合过程采用像素级运算集成权重和3D卷积计算融合提取的特征,对于像素级运算集成权重,采用空域注意力机制计算权重,计算方式如公式(5)所示:
其中⊙表示点积运算,(Θ)m表示空域注意力机制计算所得的权重,将的转置与Fm分别卷积后再进行点积运算,然后利用Sigmoid生成权重,利用空域注意力机制计算的权重将输入的特征进行加权融合,并采用额外融合卷积层来聚合注意力调制的特征计算方式如公式(6)公式(7)所示:
采用3D卷积融合特征、并计算融合特征后的空域注意力掩码,通过掩码对融合特征进行最后调制得到最终的输出结果,计算方式如公式(8)所示:
渐进式注意力学习金字塔结构采用可变形卷积,每个渐进式注意力学习金字塔结构输入包括一对相同大小的跨尺度特征层和,在完成特征信息提取后赋予特征像素级权重,并通过3D卷积聚合所有特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111371509.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序