[发明专利]一种基于联合嵌入的文本到多对象图像生成方法有效
| 申请号: | 202110642098.0 | 申请日: | 2021-06-09 | 
| 公开(公告)号: | CN113191375B | 公开(公告)日: | 2023-05-09 | 
| 发明(设计)人: | 余月;王孟岚;杨越 | 申请(专利权)人: | 北京理工大学 | 
| 主分类号: | G06V30/18 | 分类号: | G06V30/18;G06V30/19;G06V30/148;G06N3/08;G06N3/0442;G06N3/0464 | 
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 邬晓楠 | 
| 地址: | 100081 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 联合 嵌入 文本 对象 图像 生成 方法 | ||
本发明公开的一种基于联合嵌入的文本到多对象图像生成方法,属于从文本到图像的跨模态生成领域。本发明实现方法为:将文本描述输入到语义编码器中得到文本和图像的联合语义特征,将文本输入到空间布局编码器中得到文本和分割图的联合空间特征,联合语义特征和空间特征都包含句子级和单词级。使用动态融合模块分别融合单词级特征和句子级特征。将融合得到的句子级特征喂入生成式对抗网络中的初始生成器中,生成低分辨率图像,将融合得到的单词级特征喂入到后续生成器中,生成精细高分辨率图像。构建由多对生成器和判别器组成的级联生成式对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,使用训练得到的生成器生成对应图像。
技术领域
本发明涉及一种基于联合嵌入的文本到多对象图像生成方法,属于从文本到图像的跨模态生成领域。
背景技术
在我们的日常生活中,大多数情况下我们并不能依靠单一的数据形式来传递一些信息,我们通常需要结合多种模态数据来表达。例如,当我们描述一件事物时,我们通常用文本辅助图像的形式来阐述。然而,这种成对匹配的数据却需要花费大量的财力和精力去收集。生成问题不同于检索问题,检索的资源都是已经存在的数据,而生成更倾向于创造数据。收集相对应的文本和图像并不是轻松的工作,文本到图像生成研究帮助解决这些问题。书本上晦涩难懂的文字经常让缺乏想象力的学生感到痛苦,我们希望借助深度学习方法为这些文本配置匹配的图像或三维场景,结合文本、对应的图像以及三维场景帮助学生更加深刻地理解这些知识。根据文本描述生成相对应的图像,是一项富有挑战和意义的研究。
对于跨模态生成问题来说,关键在于联合特征的提取和生成模型的设计。正如在文本生成图像任务中,文本和图像是两种不同模态的数据,如何从输入中得到文本与图像的联合特征以及如何设计合理的模型来生成图像是解决该问题的关键。根据文本生成图像的目的在于,生成在形状、颜色、布局等方面合理且符合文本描述的高质量图像。
之前的研究将文本到图像生成任务简化分为为两部分来处理:从文本中提取文本-图像联合语义特征;将得到的特征向量喂入生成网络模型中得到对应的图像。然而视觉空间是高维的、结构化的,其涵盖了不同方面的视觉特征,包括高级抽象的语义、布局特征和低级纹理、颜色特征等。之前的方法在文本到单对象图像生成任务上都取得了不错的效果,但是它们并不适合处理复杂文本对应的多对象图像生成。对于多对象图像生成任务来说,直接从语义特征映射到具有合理布局的视觉空间中,是一项非常困难的挑战。
发明内容
针对生成的多对象图像没有合理空间布局的问题,本发明公开的一种基于联合嵌入的文本到多对象图像生成方法要解决的技术问题是:提供能够从文本描述生成对应多对象图像的网络框架,所述网络框架主要由语义编码器、空间布局编码器、动态特征融合模块和带注意力模块的级联生成式对抗网络组成。通过语义编码器从文本中提取得到文本和图像的联合语义特征,通过空间布局编码器从文本中提取得到文本和分割图的联合空间特征,使用动态融合模块将语义特征和空间特征融合,融合得到的特征被喂入生成式对抗网络中生成符合文本描述且具有合理布局的图像。本发明具有便捷、适用性广、生成效果好的优点。本发明将从文本生成的对应图像用于跨模态生成领域中,解决相关工程技术问题。
所述包括多媒体教育资源构建、图像编辑和计算机教学辅助。
为达到以上目的,本发明采用以下技术方案。
本发明公开的一种基于联合嵌入的文本到多对象图像生成方法,将文本描述输入到语义编码器中得到文本和图像的联合语义特征,将文本输入到空间布局编码器中得到文本和分割图的联合空间特征,联合语义特征和空间特征都包含句子级和单词级。使用动态融合模块分别融合单词级特征和句子级特征。将融合得到的句子级特征喂入生成式对抗网络中的初始生成器中,生成低分辨率图像,将融合得到的单词级特征喂入到后续生成器中,生成精细高分辨率图像。构建由多对生成器和判别器组成的级联生成式对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,使用训练得到的生成器生成对应图像。本发明将从文本生成的对应图像用于跨模态生成领域中,解决相关工程技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110642098.0/2.html,转载请声明来源钻瓜专利网。





