[发明专利]一种基于生成对抗网络的多尺度双模态文本生成图像方法有效
| 申请号: | 202110641648.7 | 申请日: | 2021-06-09 |
| 公开(公告)号: | CN113421314B | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 蒋斌;黄昀 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06N3/04 |
| 代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 梁小林 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 对抗 网络 尺度 双模 文本 图像 方法 | ||
本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法,属于文本到图像的合成技术领域,包括以下步骤:步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,步骤2,编码给定的文本描述,得到相应的文本编码特征,步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,步骤4,将中间图像特征经过一个双模态调整注意力机制,步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,本发明有益效果在于,提出一种双模态调整注意力机制,通过文本图像两种模态来调整生成图像,以及一种多尺度一致性鉴别器,通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。
技术领域
本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法,属于文本到图像的合成技术领域。
背景技术
文本到图像的合成是计算机视觉中一项重要且具有挑战性的任务,具体为根据给定的文本描述生成逼真且与给定文本语义一致的图像。这项任务已被广泛用于照片编辑,多媒体数据创建和计算机辅助设计等实际应用中。近年来,随着生成对抗网络(GANs)的快速发展,其被大量应用于文本生成图像任务中,这个复杂的计算机视觉和机器学习问题,也由此在近年来取得了很大的进步。2016年,Reed等人首次利用GAN,从文本描述中生成低分辨率的图像。2017年,Zhang等人提出StackGAN,将图像生成分为多个由粗到细的阶段。随后,Xu等人在此基础上提出了一个经典的AttnGAN模型。该模型在每一个生成阶段加入注意力机制,在生成图像的每一个子区域时,动态地选择单词级别的信息来指导图像生成。随后,研究学者基于AttnGAN框架,提出大量模型。这些模型从不同角度出发,都达到了可观的效果。例如:(1)MirrorGAN再次提取生成图像对应的文本描述,约束生成文本,使其与给定文本语义一致,进而达到增强图像文本语义一致性的目的;(2)SEGAN构建自适应注意权重机制,以区分文本描述中关键词和不重要的词,从而提高生成的精确度;(3)Yin等人认为不同描述但意思相近的句子生成的图像也应该类似,由此提出SD-GAN在提取多个句子中类似语义信息的前提下,保证图像的多样性与细节内容。但是上述方法没有考虑到蕴含在生成图像特征中的空间信息,并且,不同类型单词对应的图像区域大小也不同,比如在描述鸟的句子中“翅膀”对应的子区域范围显然与“眼睛”对应的大小不同。
发明内容
本发明的目的在于提供一种基于生成对抗网络的多尺度双模态文本生成图像方法,从而克服现有技术中的不足。
本发明通过以下技术方案实现,具体包括以下步骤:
步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征。
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子向量表示
所述的步骤2.2中采用以下条件增强方法:
由于句子嵌入表示是一个高维稀疏向量,为了避免导致潜在数据流不连续,不利于模型训练的问题,采用以下条件增强的方法:
其中,与为将句子向量表示通过全连接网络得到的均值向量和协方差矩阵,∈从高斯分布随机采样得到,·为矩阵元素对应相乘,为最终的句子向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641648.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多数据获取的不动产测绘方法
- 下一篇:一种用于肿瘤治疗的手术系统





