[发明专利]一种基于注意力机制和流模型的图像生成方法在审

申请号：	202110993967.4	申请日：	2021-08-27
公开（公告）号：	CN113706650A	公开（公告）日：	2021-11-26
发明（设计）人：	任俞睿;吴玉博;龙仕强	申请（专利权）人：	深圳龙岗智能视听研究院
主分类号：	G06T11/00	分类号：	G06T11/00;G06N3/02;G06N3/08
代理公司：	北京京万通知识产权代理有限公司 11440	代理人：	万学堂;王跃交
地址：	518116 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制模型图像生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明的基于注意力机制和流模型的图像生成方法，包括以下步骤：S1.训练数据预处理；S2.将预处理后的训练数据进入子任务一，使用注意力机制提取相关矩阵，用于生成有准确结构信息的中间结果；S3.训练数据进入子任务二，使用流模型预测流场，用于生成具有丰富细节信息的中间结果；S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中，使用内容感知网络生成权重图；以及S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务，使用编码器‑解码器的网络生成人体图像，输出图像。本发明方法能够兼顾结构信息和细节信息，从而获得更佳的生成质量。

技术领域

本发明涉及图像生成和生成对抗网络领域，具体地，涉及一种基于注意力机制和流模型的图像生成方法。

背景技术

随着深度学习和神经网络的不断发展，计算机视觉和图像处理领域受到了广泛的关注。其中，近年来兴起的姿态引导的人体图像生成任务是计算机视觉领域中的一个比较有挑战性和实际功用的课题。它的核心任务是将给定图像中的人物通过一系列的空间变换转换成目标姿态中的样子。这一任务有着诸多的难点，例如生成图像中的结构信息不完整，纹理信息的缺失等等。

在人体图像生成任务刚提出时，大多数方法使用简单的编码器-解码器结构。但由于缺少高效的转换模块，大量有用的信息会在卷积过程中丢失，导致生成图像的质量较低。近几年的人体图像生成方法可以大致分为两种类型。

第一种是基于流的方法，即借助从源图像到目标图像的流场将源图像的像素扭曲到目标姿态对应的位置。这种方法可以更好地保留源图像的纹理细节并生成更逼真的输出。然而，虽然基于流的方法可以对相邻区域的变形建立联系，但很难对长期相关性进行建模，同时，由于有些部位并没有出现在原图像中，这就会导致生成图像的结构并不准确。

另一种方法是使用信息注入的方式，通过将源图像的人体属性解耦为各个语义部位，并提取中每个语义部位的特征，之后将特征解码到目标姿态中对应位置的方式来生成图像。这种方法通常可以生成较为准确的结构，但难以保留原图像各语义部位的清晰纹理。

总而言之，现行的方法虽然可以在某些方面有比较好的表现，但大多难以同时兼顾纹理信息和结构信息。

发明内容

本发明提供了一种基于注意力机制和流模型的图像生成方法，能够兼顾结构信息和细节信息，从而获得更佳的生成质量。

本发明的技术方案如下：

本发明的基于注意力机制和流模型的图像生成方法，包括以下步骤：S1.训练数据预处理；S2.将预处理后的训练数据进入子任务一，使用注意力机制提取相关矩阵，用于生成有准确结构信息的中间结果；S3.训练数据进入子任务二，使用流模型预测流场，用于生成具有丰富细节信息的中间结果；S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中，使用内容感知网络生成权重图；以及S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务，使用编码器-解码器的网络生成人体图像，输出图像。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S1中，输入图像，进行数据预处理，将训练数据处理为模型需要的大小和格式，生成原图像和目标图像的姿态图。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S2中，将原图像和目标图像的姿态图输入到子任务一中，使用基于注意力机制的相关矩阵提取器提取不同尺度下原图像和目标图像的姿态图之间的相关矩阵，以平均绝对误差作为损失函数，生成有准确结构信息的中间结果。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S3中，将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中，使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图的流场，以采样正确性损失和正则化损失作为损失函数，用于生成具有丰富细节信息的中间结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳龙岗智能视听研究院，未经深圳龙岗智能视听研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110993967.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种高浓度二氧化硫气体的生产方法
下一篇：设备远程控制方法及装置、电子设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T11-00 2D［二维］图像的生成
G06T11-20 .根据基本元素绘图，例如：直线或圆
G06T11-40 .通过添加表面特征填充平面，例如：色彩或纹理
G06T11-60 .编辑图形和文本，组合图形或文本
G06T11-80 .使用诸如鼠标、光笔、键盘上的方向键等手输入设备建立或修改手绘或手写图像

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于注意力机制和流模型的图像生成方法在审

专利文献下载