[发明专利]一种加入SE块的场景图生成图像方法在审

申请号：	202111597835.6	申请日：	2021-12-24
公开（公告）号：	CN114283218A	公开（公告）日：	2022-04-05
发明（设计）人：	俞俊;杨苏杭;范梦婷;丁佳骏	申请（专利权）人：	杭州电子科技大学
主分类号：	G06T11/00	分类号：	G06T11/00;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种加入 se 场景生成图像方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种加入SE块的场景图生成图像方法。本发明针对Sg2im生成的图像模糊、缺少细节等问题，通过往Sg2im模型中加入SE块，增强对图像中细节的关注，提高场景图生成图像的质量。本发明的主要做法就是将SE块加入到Sg2im模型的级联细化网络部分。本发明包括以下步骤：1.数据预处理，2.加入SE块的Sg2im模型的图像生成，3.算法性能比较。本发明提出加入SE块的场景图生成图像算法，并且有效提升了生成图像的清晰度和细节感。

技术领域

本发明提出了一种加入SE块的场景图生成图像方法，针对场景图生成图像的技术存在诸如伪影、对象重叠、对象缺少和生成图像模糊等问题，通过往Sg2im模型中加入SE块，有效地学习通道注意，加强有用信息并压缩无用信息，增强对图像中细节和局部纹理的关注，以此来构建一个能生成具有细节感和真实感的场景图生成图像算法。

背景技术

自然语言生成图像是图像生成领域的挑战性任务，其目的是输入语言描述，并通过图像生成模型生成与描述内容相匹配的图片。自然语言生成图像技术的研究是打破自然语言处理和计算机视觉两大门派界限的重要部分，对实现多模态AI系统具有重大意义，在实际应用中也有广泛的需求。近年来，随着深度学习的发展，自然语言生成图像领域已取得了令人兴奋的进展，Zhang等人提出了堆叠生成对抗网络(StackGAN)，不久又提出了StackGAN++。StackGAN++是一个端到端的由多个生成器和判别器组成的树状结构网络，采用并行训练的方式，由树的不同分支生成从低分辨率到高分辨率的图像。Xu等人在StackGAN++基础上提出注意力生成对抗网络(AttnGAN)。AttnGAN通过关注自然语言描述中的相关词，在图像的不同子区域综合细粒度细节生成逼真图像，这是一种新颖的注意力生成网络。作者还提出一种深度注意多模态相似度(DAMSM)模型，用于计算细粒度的图文匹配损失。

StackGAN++和AttnGAN等主流方法在处理鸟类和花卉等场景简单对象单一的领域上表现已经很好了，但当它们在处理具有多个对象及对象之间关系的复杂场景句子描述时，生成的图像效果很不理想。为了克服这个难题，Johnson等人深入到文本描述的语义中进行研究，提出了一种利用场景图生成图像的模型(Sg2im)。该模型的输入变为场景图而不再是文本描述，场景图首先是输入到图卷积网络，得到所有对象的嵌入对象，然后被输入到对象布局网络，该网络由掩码回归网络和包围盒回归网络组成，得到大概的场景布局，最后经过级联细化网络生成最终的图像。该模型能较好地完成复杂场景描述生成图像的任务。

但是Sg2im模型生成图像的存在诸如伪影、对象重叠、对象缺少和分辨率低模糊等问题，因此在场景图生成图像领域还有很大的改进空间。

发明内容

本发明的目的是针对现有技术的不足，提供一种加入SE块的场景图生成图像方法。本发明包括以下步骤：

步骤1、数据集预处理

1-1.对数据集进行预处理，筛选出至少出现2000次的对象和500次的关系，最后留下178个对象和45个关系；对于数据集中图像，筛选出包含3-30个对象和至少一个关系的图片，最后留下包含62565张图片的训练集，包含5506张图片的验证集和包含5088张图片的测试集；

1-2.将筛选后所有的图像裁剪为256×256像素的3通道RGB图像，并生成对应的对象列表，命名为objs；生成包围框列表，命名为boxes；生成场景图三元组(对象、关系、对象)列表，命名为triples；

步骤2、加入SE块的Sg2im模型

Sg2im模型的级联细化网络部分基本由卷积操作构成，因此在Sg2im模型的级联块的结尾添加SE块；

步骤3、选择原始Sg2im和加入SE块的Sg2im进行对比，以Visual Genome作为对比的基准数据集，将两种模型分别在同一数据集上迭代1000000次，比较生成图像的质量，并分别计算其IS和FID指标进行定量比较。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111597835.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于二硫化钨的柔性生物传感器及其制备方法
下一篇：一种纸箱的彩色印刷处理工艺

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T11-00 2D［二维］图像的生成
G06T11-20 .根据基本元素绘图，例如：直线或圆
G06T11-40 .通过添加表面特征填充平面，例如：色彩或纹理
G06T11-60 .编辑图形和文本，组合图形或文本
G06T11-80 .使用诸如鼠标、光笔、键盘上的方向键等手输入设备建立或修改手绘或手写图像

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种加入SE块的场景图生成图像方法在审

专利文献下载