[发明专利]基于输入输出互注意力和隐层自注意力的StyleGAN图像重构方法在审
| 申请号: | 202310433614.8 | 申请日: | 2023-04-21 |
| 公开(公告)号: | CN116402915A | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 孙力;夏思为 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06N3/045;G06N3/0475;G06N3/08 |
| 代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 输入输出 注意力 stylegan 图像 方法 | ||
本发明提供了一种基于输入输出互注意力和隐层自注意力的StyleGAN图像重构方法,其特点是用编码器将输入图像映射为特征,通过构建隐层自注意力与输入互注意力模块从特征中提取信息,得到隐层码字;通过构建输出互注意力模块从隐层码字中提取信息,得到风格码字,将输出的风格码字送入预训练的StyleGAN生成器,得到重构图像;将编码器、隐层自注意力与输入互注意力模块、输出互注意力模块组合成一个编码网络,固定StyleGAN生成器,训练编码网络,实现图像重构质量的提升。本发明与现有技术相比,具有增加少量的参数量与计算量,就能显著提高重构图像质量的特点,较好地解决了编码器学习图像信息不足而导致的重构图像质量差的问题。
技术领域
本发明属于深度学习技术领域,尤其是一种基于输入输出互注意力和隐层自注意力的StyleGAN图像重构方法。
背景技术
目前,StyleGAN在图像生成方面取得了许多成功,该模型生成的图像具有高清、自然的优点,同时其语义上解纠缠的潜在空间为图像编辑提供了自由度。图像重构任务旨在将输入图像映射到潜在空间,使得潜在空间的风格码字通过生成器生成接近原图的重构图像,这有利于下游真实图像编辑任务。训练StyleGAN模型的时间与计算资源代价极大,因此许多方法利用预训练StyleGAN模型实现图像重构以提高效率。
利用预训练StyleGAN模型的图像重构方法可以分为两种:基于优化的重构与基于编码器的重构。基于优化的重构方法可以重构出更接近原图的图像,但推理速度慢,可编辑性难以控制;基于编码器的重构方法,推理的速度更快,利用的计算资源更少。基于编码器的重构方法,需要构建一个编码器将输入图像编码为风格码字,再将风格码字输入预训练StyleGAN模型的生成器中得到重构图像,通过计算重构图像与原图之间的均方误差损失、感知损失和身份识别损失完成对编码器的训练。
现有的基于编码器的重构方法,通常采用卷积神经网络作为编码器结构,这种结构感受野小,只能对图像的局部信息建立联系,无法对图像特征进行长距离建模,有丢失全局空间信息的风险。Transformer结构中的注意力模块关注全局信息,可以弥补卷积神经网络的感受野局限性,因此,提供一种合理利用注意力模块的StyleGAN图像重构方法十分必要。
发明内容
本发明的目的是针对现有技术的不足而提供一种基于输入输出互注意力和隐层自注意力的StyleGAN图像重构方法,提升重构图像的质量:将编码器、隐层自注意力与输入互注意力模块、输出互注意力模块组合成一个编码网络,训练编码网络,将编码网络输出的风格码字送入预训练的StyleGAN生成器,得到重构图像,方法通过增加少量的参数量与计算量,显著提高重构图像质量,较好地解决了编码器学习图像信息不足而导致的重构图像质量差的问题。
本发明的目的是这样实现的:
一种基于输入输出互注意力和隐层自注意力的StyleGAN图像重构方法,其特点是将编码器、隐层自注意力与输入互注意力模块、输出互注意力模块组合成一个编码网络,训练编码网络,将编码网络输出的风格码字送入预训练的StyleGAN生成器,实现重建图像质量的提升,具体包括以下步骤:
步骤1:用编码器将输入图像映射为特征,通过构建隐层自注意力与输入互注意力模块从特征中提取信息,得到隐层码字;
步骤2:通过构建输出互注意力模块从隐层码字中提取信息,得到风格码字,将输出的风格码字送入预训练的StyleGAN生成器,得到重构图像;
步骤3:将编码器、隐层自注意力与输入互注意力模块和输出互注意力模块组合成一个编码网络,固定StyleGAN生成器,训练编码网络,实现图像重构质量的提升。
所述隐层自注意力与输入互注意力模块,由若干隐层自注意力模块与若干输入互注意力模块交叉串联构成;隐层自注意力模块由自注意力模块构成,通过隐层码字的自我提炼更新隐层码字;输入互注意力模块由交叉注意力模块构成,用编码器提取的输入图像特征更新初始隐层码字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310433614.8/2.html,转载请声明来源钻瓜专利网。





