[发明专利]基于非对称卷积网络和注意力机制的跨视角图像生成方法在审
申请号: | 202110275614.0 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112884893A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 丁浩;王彩玲;张晓峰;蒋国平 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06T17/05 | 分类号: | G06T17/05;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 马玉雯 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对称 卷积 网络 注意力 机制 视角 图像 生成 方法 | ||
1.一种基于非对称卷积网络和注意力机制的跨视角图像生成方法,其特征在于,包括以下步骤:
(1)将俯视图Ia和街景图的语义图Sg输入到生成器1中,利用非对称卷积神经网络提取特征生成粗略的街景图Ig’和特征图F1;
(2)将步骤(1)中生成的粗略的街景图Ig’输入到生成器2中,利用非对称卷积神经网络提取特征生成相应的粗略的语义图Sg’和特征图F2;
(3)将步骤(1)和步骤(2)中的特征图F1和F2在通道上连接到一起输入到SE模块中,生成精细的特征图F1’和F2’;
(4)将俯视图Ia和步骤(1)中生成的粗略的街景图Ig’在通道上连接起来,然后再和步骤(3)中生成的精细的特征图F1’和F2’连接起来输入到生成器3中,利用非对称卷积神经网络提取特征生成精细的街景图Ig”;
(5)将步骤(4)中生成的精细的街景图Ig”输入到生成器2中,利用非对称卷积神经网络提取特征生成相应的精细的语义图Sg”作为最终的输出;
(6)通过损失函数不断地更新学习参数从而生成更加真实的结果。
2.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法,其特征在于,所述利用非对称卷积神经网络提取特征的具体方法是:
在非对称卷积网络中,使用1x3、3x1和3x3的卷积组来替代原来的U-net网络中使用的3x3的卷积核来提取特征;
在训练阶段,非对称卷积神经网络将这三个卷积层的计算结果进行融合,获得最终输出;
在测试阶段,使用融合后的卷积核参数来初始化现有的网络,使网络结构和原始网络完全一样,网络参数采用了特征提取能力更强的参数即融合后的卷积核参数,因此在测试阶段不会增加计算量。
3.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法,其特征在于,在所述非对称卷积神经网络提取过程中,使用空间自适应归一化代替传统的批归一化,生成空间自适应缩放因子,在归一化过程中保留了语义信息;
在所述空间自适应归一化中,仿射层是从语义分割图中学习得来;除了现在所学得的仿射参数需要空间自适应,还要将每个语义标签使用不同的scaling和bias。
4.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法,其特征在于,所述步骤(3)中,将步骤(1)和步骤(2)中的特征图F1和F2在通道上连接到一起输入到SE模块中,生成精细的特征图F1’和F2’的具体方法是:
31)SE模块首先对卷积得到的特征图F1和F2进行压缩操作,得到通道级的全局特征;
32)然后对得到的全局特征进行激活操作,学习各个通道间的关系,也得到不同通道的权重;
33)最后用步骤32)中得到的不同通道的权重乘以原来的特征图F1和F2得到最终精细的特征图F1’和F2’。
5.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法,其特征在于,所述步骤(2)和步骤(5)中使用同一个生成器,通过在两个阶段共享参数来两次使用单个生成器,以降低网络容量。
6.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法,其特征在于,所述步骤(6)中,通过损失函数不断地更新学习参数从而生成更加真实的结果的具体方法是:
把语义图作为输入,提出的语义图引导的对抗性损失可以表达如下,
其中Ia、Ig、Sg分别表示俯视图、街景图、语义图,Ig’和Sg’表示粗略的街景图和粗略的语义图,Ig”和Sg”表示精细的街景图和精细的语义图,LcGAN表示对抗损失,E表示分布函数的期望值,D表示判别器的输出,符号⊕表示通道级连接操作;
其中LcGAN(Ia,Ig’)和LcGAN(Ia,Ig”)是传统GAN中定义的对抗性损失;
总损失如下:
其中Lip是使用L1重建分别计算生成的图像Ig’、Sg’、Ig”和Sg”与相应的真实图像之间的损失;Ltv是最终合成图像Ig”上的总变化正则化;λi和λtv是控制不同目标相对重要性的权衡参数;G1表示生成器1,G2表示生成器2,G3表示生成器3,D1表示判别器1,D2表示判别器2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110275614.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带侧面安全锁的双击发活检枪
- 下一篇:一种可伸缩式悬挑脚手架