[发明专利]一种基于生成对抗网络的多尺度双模态文本生成图像方法有效
| 申请号: | 202110641648.7 | 申请日: | 2021-06-09 | 
| 公开(公告)号: | CN113421314B | 公开(公告)日: | 2022-04-22 | 
| 发明(设计)人: | 蒋斌;黄昀 | 申请(专利权)人: | 湖南大学 | 
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06N3/04 | 
| 代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 梁小林 | 
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 对抗 网络 尺度 双模 文本 图像 方法 | ||
1.一种基于生成对抗网络的多尺度双模态文本生成图像方法,其特征在于包括以下步骤:
步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征;
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子嵌入表示与从高斯分布随机采样得到的噪声z沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示与中间图像特征Vi的相对重要性,即控制因子ri:
ri=σ(Lw(W)+Lv(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lv分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci:
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
其中,Lu表示线性运算,sigma表示sigma函数,为文本引导模块调整后的图像特征;
步骤4.2、通道采样模块主要通过聚合通道维度上的信息,由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为其中n为特征通道数;采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,αm},其中每个αj是第j个卷积核的参数值,聚合运算公式为:
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力,由此得到通道采样模块的输出
步骤4.4、将文本引导模块和通道采样模块的输出拼接起来,作为下一生成阶段的输入;
步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器;该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641648.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多数据获取的不动产测绘方法
- 下一篇:一种用于肿瘤治疗的手术系统





