[发明专利]一种基于多视角注意力机制的灰度图像自动上色方法有效
| 申请号: | 202110703101.5 | 申请日: | 2021-06-24 |
| 公开(公告)号: | CN113436094B | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 蒋斌;戴家武;许方镪 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T11/40;G06N3/04;G06N3/08 |
| 代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 梁小林 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 视角 注意力 机制 灰度 图像 自动 上色 方法 | ||
1.一种基于多视角注意力机制的灰度图像自动上色方法,其特征在于包括以下步骤:
步骤1,数据收集与处理,采用开源的大规模图像数据集ImageNet,在获得数据集后对图像进行中心裁剪,得到分辨率为256*256的训练图像,随后对图像进行颜色空间变换,从RGB颜色空间变换到CIE Lab空间,对训练集中的每一张图像,以其L通道的数据作为灰度输入,ab通道作为颜色标签;
步骤2,模型构建,基于编码-解码架构设计全卷积的自动上色模型;采用多视角注意力机制,通过多视角注意力模块能够让上色模型自适应地获取不同视角、不同尺度的注意力信息,更好地支持模型重建彩色图像;
多视角注意力机制包括以下方法:多视角注意力模块接受一个尺寸为RH×W×C的特征图F作为输入,随后该特征图进入三个分支;
分支1:对特征图F进行全局平均池化,将其转换为F11,尺寸为R1×1×C;将特征图F11输入到两层连续的全连接层进行仿射变换,两层全连接层之间有一层ReLU激活函数,第二层全连接层后有一层Sigmoid,最终得到特征图Fout_1,其尺寸为R1×1×C,该过程用公式(1)、(2)进行规约;
F11=avgpool(F) (1)
Fout_1=σ(fl2(R(fl1(F11)))) (2)
其中avgpool代表全局平均池化,σ代表Sigmiod层,fl1和fl2分别代表两层全连接层,R代表激活函数ReLU层;
分支2:将特征图F进行通道池化,得到特征图F21,其尺寸为RH×W×2;采用最大池化,将F21按照2k倍下采样,k=1,2,3,..,n-1;得到不同尺度的特征图V1,V2,...,Vn-1,特征图Vk的尺寸为随后对于每一个特征图Vk,经过一个3x3卷积和一层Sigmoid层之后进行k倍上采样,恢复特征图尺寸为RH×W×1,得到n-1个特征图输出A1,A2,...,An-1;最后将每张特征图分别乘上一个可学习参数λk得到第二个分支的特征图输出Fout_2,尺寸为RH×W×1;
该分支数学规约如式(3)至(6)所示:
F21=localpool(F2) (3)
Vk=mp(F21) (4)
Ak=up(σ(conv(Vk))) (5)
其中localpool代表通道池化,mp代表空间上的最大池化,up代表上采样,conv代表3×3卷积,k表示特征图下采样的倍数,是一个1到n的整数,n表示最大的下采样倍数,即任意符合图像分辨率下采样倍数的整数;
分支3:将输入特征图F不做任何变换成为Fout_3;
最后将三个分支的输出通过“广播”机制进行维度复制,得到了三张尺寸均为RH×W×C的特征图,最后进行Hadmard乘积得到最终的输出Fout,尺寸为RH×W×C,并传入下一层;特征图聚合操作的数学规约如式(7)所示:
其中BroadCast表示张量的“广播”操作,即先对特征图进行维度拓展。
2.根据权利要求1所述的一种基于多视角注意力机制的灰度图像自动上色方法,其特征在于,所述步骤2中,基于编码-解码架构设计全卷积的自动上色模型,采用了Huber-loss作为损失函数,其数学规约如式(8):
其中x和y分别表示训练数据对中的彩色原图以及模型重建后的彩色图像对应位置的像素值,δ是一个超参数,其值取1,即δ=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110703101.5/1.html,转载请声明来源钻瓜专利网。





