[发明专利]一种基于深度学习的自然图像抠图方法有效
申请号: | 201911274458.5 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111161277B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 赖剑煌;邓卓爽 | 申请(专利权)人: | 中山大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T7/194;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 自然 图像 方法 | ||
1.一种基于深度学习的自然图像抠图方法,其特征在于,包括步骤:
S1:获取抠图数据集,把所述抠图数据集中样本划分为训练集与测试集;
S2:搭建具有编码器-解码器结构的自然图像抠图模型,该模型中所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作;编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征;
步骤S2中,所述编码器由5个stage组成,在stage1和stage2中使用普通卷积和步长为2的最大池化操作,把stage3和stage4中最大池化操作的步长设为1,去除stage5的池化操作,以上结构使得所述编码器的下采样倍数为4;在stage4和stage5引入空洞卷积操作;把所有全连接层替换成一层卷积核大小为1的卷积层;
步骤S2中所述解码器包括4个阶段:
阶段D4:对输出自所述空洞空间金字塔池化模块的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage5的输出进行融合,利用所述编码器stage4最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D3:对输出自阶段D4的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage4的输出进行融合,利用所述编码器stage3最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D2:对输出自阶段D3的特征图进行卷积操作,利用所述编码器stage2最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍;
阶段D1:对输出自阶段D2的特征图进行卷积操作,利用所述编码器stage1最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍,尺度恢复原图大小,对所得特征度进行两次卷积操作,通道数降为1,最后通过sigmoid函数输出预测的alpha蒙版;
S3:初始化并训练模型,利用所述训练集中的alpha蒙版生成三元图,把原图与三元图作为模型输入,对模型进行训练,模型输出为预测的alpha蒙版,计算预测的alpha蒙版与真实alpha蒙版之间的误差,保存在所述测试集上表现最好的模型;
S4:将需要测试的图片及对应的三元图输入到已训练好的自然图像抠图模型中,得到预测的alpha蒙版。
2.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S1中,对训练集和测试集分别进行数据增强,方法是:
利用前景图和alpha蒙版把同一前景目标融合进不同的背景中,融合公式为:
Ii=αi*Fi+(1-αi)*Bi
式中,i表示某一个像素,Ii表示像素颜色,αi表示透明度,Fi表示前景,Bi表示背景。
3.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,所述最大池化操作需返回最大值像素的坐标信息;
所述空洞空间金字塔池化模块用于解决特征多尺度问题,具体方法为:在所述编码器顶部连接五路并行分支,前四路分支分别使用空洞率为1、5、9、16的空洞卷积操作对所述编码器输出的特征图作进一步特征提取,最后一路对所述编码器输出的特征图进行全局平均池化操作得到一维向量,利用双线性插值法对所述向量上采样至所述编码器输出的特征图大小,对所述五路并行分支的特征图在通道方向进行拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911274458.5/1.html,转载请声明来源钻瓜专利网。