[发明专利]一种基于混和网络模型的文本到图像的生成方法有效
| 申请号: | 201910923354.6 | 申请日: | 2019-09-27 |
| 公开(公告)号: | CN110751698B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 张玲;李钢;黄晓琪;杨子固;刘剑超;王莉 | 申请(专利权)人: | 太原理工大学 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T7/00;G06N3/04 |
| 代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
| 地址: | 030024 *** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 混和 网络 模型 文本 图像 生成 方法 | ||
1.一种基于混和网络模型的文本到图像的生成方法,包括步骤:
步骤S1:对基于生成对抗网络的文本-图像对抗模型的相关数据进行加载;
步骤S2:实现文本-图像对抗模型的定义,包括真实图像的定义、错误图像的定义、真实标题的定义、错误标题的定义以及噪声变量的定义;
步骤S3:在文本-图像对抗模型中,对文本-图像的映射进行前向训练;在对文本-图像的映射进行前向训练中,通过胶囊网络对真假图像编码,具体过程如下:
(1)将真图像或假图像以向量组形式首先输入到胶囊网络的输入层;
(2)输入层对图像简单处理后,依次输入到两个胶囊层,利用两个胶囊层对图像提取高阶特征后,通过批量归一化层对其做归一化处理;后通过一个胶囊层和一个批量归一化层再次对图像做特征提取和归一化处理,后面通过一个同样的胶囊层和批量归一化层对图像做相同的处理;再经过一个网络层,该网络层将一个图像张量压缩成一个向量;最后经过全连接层,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,输出最后的总体特征;
步骤S4:对文本-图像对抗模型中的生成器进行前向训练,使用递归神经网络对正确标题进行编码,在编码后的向量中加入噪声来对生成器进行训练,得到训练后的生成器和伪造图像;
步骤S5:对文本-图像对抗模型的判别器输入三种类型的输入,使用的是具有配对意识的判别器,它是对标准的文本条件式DCGAN框架中的判别器进行了改进,判别器除了判别输出图像的真假外,还需要分辨出失败的生成内容是属于生成图像不真实还是生成图像不匹配,伪造图像向量和真实标题向量、真实图像向量和伪造标题向量以及真实图像向量和真实标题向量,来对判别器进行训练来得到训练后的判别器;
步骤S6:对文本-图像的对抗模型进行前向测试训练,用递归神经网络对真实标题进行编码,在编码向量中加入随机噪声来对生成器进行测试,以了解生成器是否能如期望的那样输出理想的结果;
步骤S7:参数定义,具体包括学习率、学习衰减率以及生成器和判别器的优化器的定义;
步骤S8:开始对文本-图像的对抗模型进行训练,下载最近检查点,获取生成种子、噪声和句子的下标,获取匹配的文本、获取真实的图像、获取错误的标题、获取错误的图像和获取噪声后对文本-图像的映射进行更新,并更新判别器和生成器,最后得出轮数和损失函数信息;
开始对模型的训练,训练过程如下所示:更新文本到图像的映射过程,当训练轮数小于50轮时,获取包含真假图像和真假标题的字典,利用循环神经网络的损失函数和优化函数组成的向量来获取循环神经网络的误差;当训练轮数大于等于50轮时,则误差置为0;更新判别器和生成器;在一定的轮数后,将时间打印出来;获取样本句子和样本种子组成的字典,再结合生成网络的输出和循环神经网络的输出组成的向量组来得到生成的图像,在生成图像的过程中加入一层注意力机制,当生成图像中的某一块区域时,将以一定的概率对应到相应语句上,从而提高生成质量;将生成的图像保存到指定的目录中;保存模型,每隔10轮保存更新一次检查点,最后一轮时,即第100轮时保存最新最后的检查点,并更新相应的名称;
步骤S9:保存训练好的文本-图像的对抗模型,对训练好的文本-图像的对抗模型生成的图像的图像质量进行评估,评估的具体过程如下所示:构建相应的评分模块;采用图像质量评估方法中的其中一种:FID Score,将生成的图像嵌入Inception Net的一个特定层给出的特征空间中,将该空间视为连续的多元高斯分布,对生成数据和实际数据的均值和协方差进行计算,最后返回均值和协方差,以此作为图像质量的评估标准。
2.根据权利要求1所述的一种基于混和网络模型的文本到图像的生成方法,其特征在于,步骤S1中,加载文本-图像对抗模型的相关数据包括:加载标题集,将处理后的标题集存入相应的字典中;建立相关的词汇表,其中记载了相应词汇的数量;在列表中存储相关标题的下标;对存储标题下标的列表进行随机检查;加载相关的图像并对图像进行变形;获取相关的图像训练集和图像测试集的图像数量、标题训练集和标题测试集的标题数量;对词汇表、图像训练集、图像测试集、标题训练数、标题测试数、每幅图像对应的标题数、测试图像的数量、训练图像的数量、训练下标集和测试下标集以二进制形式进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910923354.6/1.html,转载请声明来源钻瓜专利网。





