[发明专利]一种基于StackGAN网络的文本生成图像方法在审

申请号：	202010735650.6	申请日：	2020-07-28
公开（公告）号：	CN111968193A	公开（公告）日：	2020-11-20
发明（设计）人：	李云红;朱绵云;聂梦轩;穆兴;贾凯莉;姚兰;罗雪敏	申请（专利权）人：	西安工程大学
主分类号：	G06T11/00	分类号：	G06T11/00;G06T5/50;G06N3/04;G06N3/08;G06T5/00;G06T7/13;G06T7/90
代理公司：	西安弘理专利事务所 61214	代理人：	弓长
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 stackgan 网络文本生成图像方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于StackGAN网络的文本生成图像方法，其特征在于，具体按照以下步骤实施：

步骤1，收集整理文本图像数据集；

步骤2，将收集好的文本图像数据集分成训练集和测试集；

步骤3，构建StackGAN网络文本生成图像模型，该网络模型分为两个阶段进行训练，分别为低分辨率图像生成阶段和高分辨率图像生成阶段；低分辨率图像生成阶段包括一个生成器和一个判别器，高分辨率图像生成阶段包括一个生成器和两个判别器；

步骤4，将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入，输出64×64低分辨率图像，然后送入到第一阶段的判别器中进行判别；

步骤5，将步骤4得到的64×64低分辨率图像进行预处理；

步骤6，将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入，然后再结合图像的类别与重构信息，在第二阶段模型中进行训练，输出256×256高分辨率图像，然后送入到第二阶段的判别器中进行判别。

2.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法，其特征在于，所述步骤4中，具体过程如下：

步骤4.1，将训练集图像文本描述使用文本编码器进行编码，将文本描述表示为特征向量；

步骤4.2，采用条件增强模型产生一个附加条件变量c；具体是将文本特征向量通过全连接层得到均值向量和协方差矩阵然后从单位高斯分布N(0,1)中随机采样ε，得到最终条件变量c的表达式，如式(1)所示：

其中，c表示条件变量，表示文本特征向量，表示均值向量，表示协方差矩阵，⊙表示矩阵元素对应相乘；

步骤4.3，将步骤4.2得到的条件变量c与随机噪声向量z进行拼接，作为第一阶段生成器的输入，然后通过全连接及上采样操作生成64×64像素的图像；训练中第一阶段生成器的损失函数如式(2)所示；

式中，G1和D1分别为第一阶段的生成器和判别器，L_G1表示第一阶段生成器的损失函数，E表示期望，z表示随机噪声向量，t表示文本描述，p_z表示随机噪声分布，p_data表示真实数据分布，L_kL表示正则化函数，λ是正则化参数，设置为1；

步骤4.4，将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量输入到第一阶段的判别器中进行判别，如果判别器输出为1，则表示判别器输入的是和文本匹配的真实图像；如果判别器输出为0，则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像；第一阶段判别器的损失函数，如式(4)所示；

式中，L_D1表示第一阶段判别器的损失函数，I₁表示第一阶段64×64真实图像。

3.根据权利要求2所述的一种基于StackGAN网络的文本生成图像方法，其特征在于，所述步骤4.3中，正则化函数，如式(3)所示；

式中，L_kL表示正则化函数，D_kL表示标准高斯分布和条件高斯分布之间的KL散度，表示独立高斯分布，N(0,1)表示标准正态分布。

4.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法，其特征在于，所述步骤5中，预处理过程包括图像灰度化、边缘检测及边缘锐化，首先对图像进行灰度化处理，其次对灰度化图像进行边缘检测，最后对得到的边缘检测图像进行边缘锐化。

5.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法，其特征在于，所述步骤6中，具体过程如下：

步骤6.1，将第一阶段生成的64×64图像经过步骤5预处理后最终得到的图像与训练集图像文本描述一起输入到第二阶段的生成器中，生成器通过一系列卷积下采样操作后与文本特征向量进行拼接；

第二阶段生成器的损失函数如式(5)所示；

式中，L_g2表示第二阶段生成器的损失函数，E表示期望，s₁表示第一阶段生成图像的预处理结果，P_G1表示第一阶段生成图像结果分布，Ds为第二阶段的真假判别器，G2为第二阶段的生成器，λ₀是一个平衡的正则化参数，设置为1；

步骤6.2，在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练，生成像素更好的256×256高分辨率图像；

第二阶段生成器图像的分类损失函数与C_r做交叉熵如式(6)所示；

式中，L_Gc表示第二阶段生成器的分类损失函数，H表示交叉熵函数，D_c表示类别判别器，I_f表示虚假图像，C_r表示正确图像类别；

第二阶段生成器图像特征重构误差函数如式(7)所示；

式中，L_feature表示图像特征重构误差函数，F_D为神经网络非线性函数，I_r表示真实图像；

第二阶段生成器图像像素重构误差函数如式(8)所示；

式中，L_image表示图像像素重构误差函数；

第二阶段生成器的最终损失函数如式(9)所示；

L_G2＝L_g2+L_Gc+λ₁L_feature+λ₂L_image (9)；

式中，L_G2表示第二阶段生成器的最终损失函数，λ₁和λ₂为超参数，设置为1；

步骤6.3，将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量放入第二阶段的判别器中进行判别，第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配，第二个判别器判断输入图像所属类别；

当第一个判别器输入和文本匹配的真实图像I_r和文本特征向量时，与1作交叉熵；当第一个判别器输入生成的虚假图像I_f和文本特征向量时，则与0作交叉熵；当第一个判别器输入和文本不匹配的错误图像I_w和文本特征向量时，与0作交叉熵；

第二阶段第一个判别器的损失函数如式(10)所示；

式中，L_Ds表示第二阶段第一个判别器的损失函数，Ds表示真假判别器；

第二个判别器判断输入图像的类别，当第二个判别器输入和文本匹配的真实图像I_r和文本特征向量时，正确图像类别为C_r，与C_r做交叉熵；当第二个判别器输入生成的虚假图像I_f和文本特征向量时，虚假图像的类别标签也为C_r，则与C_r作交叉熵；当第二个判别器输入和文本不匹配的错误图像I_w和文本特征向量时，错误图像的类别标签为C_w，则与C_w作交叉熵；

第二阶段第二个判别器的损失函数如式(11)所示；

式中，L_Dc表示第二阶段第二个判别器的分类损失函数，D_c表示类别判别器；

第二阶段判别器最终损失函数如式(12)所示；

L_D2＝L_Ds+L_Dc (12)；

式中，L_D2表示第二阶段判别器的最终损失函数，L_Ds为第二阶段第一个判别器判断真假的损失函数，L_Dc为第二阶段第二个判别器的分类损失函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安工程大学，未经西安工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010735650.6/1.html，转载请声明来源钻瓜专利网。