[发明专利]文本生成图像的美学优化方法有效
申请号: | 201910464250.3 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110176050B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 徐天宇;王智 | 申请(专利权)人: | 清华大学深圳研究生院 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06N3/084;G06N3/094;G06N3/0475 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 图像 美学 优化 方法 | ||
本发明提供一种文本生成图像的美学优化方法,选定StackGAN++(堆积生成对抗网络++)作为基础的文字生成图像模型,将美观度评判模型融入到文本生成图像模型的训练阶段,借助评判模型对训练阶段产生的中间结果进行分数评判,利用获得的分数来帮助引导生成模型的训练;利用得到的文字生成图像模型来实现文本生成图像。本发明通过将美观度评判模型融入文本生成图像GAN中,利用评判模型为GAN的训练提供一项新的损失来引导GAN提高其生成图像的美观度,其方案仅仅提高了模型训练时的消耗,但其训练获得的生成模型则与原始模型结构上并无区别,只是参数上发生了变化,因此运行效率并未发生变化,但生成结果则产生了相应的改变,能生成美观度更高的结果。
技术领域
本发明涉及深度学习及计算机视觉领域,尤其涉及文本生成图像美学质量优化。
背景技术
在计算机视觉领域中,基于给定的一段文本生成对应图像的研究是一项热门的研究课题,其中以基于对抗生成网络(generative adversarial network)实现文本生成图像目标的研究最为令人瞩目,已实现的模型可以较高质量生成256*256大小的图片。但目前该领域的研究主要集中于提高生成图像的解析度(大小)、多样性以及能够处理文本的复杂度,但极少关注如何提高生成图像的美学质量。而在实际应用场景中,生成更加美观的图片可以提升用户的使用体验,从而提高相关应用的质量。
提高图像美观度的任务虽然可以借助计算机视觉另一项研究课题——图像增强技术来实现,但本质上这种做法是两个流程的串接——由生成模型生成图像,将图像输入到图像增强模型中提高其质量,其复杂度是两项任务的复杂度的结合。
发明内容
本发明的目的是为了解决现有技术中的问题,提出文本生成图像的美学优化方法。
为解决上述技术问题,本发明提出一种文本生成图像的美学优化方法,选定StackGAN++(堆积生成对抗网络++)作为基础的文字生成图像模型,将美观度评判模型融入到文本生成图像模型的训练阶段,借助评判模型对训练阶段产生的中间结果进行分数评判,利用获得的分数来帮助引导生成模型的训练;利用得到的文字生成图像模型来实现文本生成图像。
在本发明的一些实施例中,还包括以下技术特征:
所述将美观度评判模型融入到文本生成图像模型的训练阶段,具体是以美观度评判模型给出的分数为基础,定义损失函数——美学损失,将美学损失加入到生成模型的损失函数中成为其组成部分之一,从而起到能够引导生成模型训练过程使其趋向于生成美观度更高的结果。
StackGAN++的训练采用小批梯度下降的方式进行训练,将整体训练数据以batch为单位输入到StackGAN++模型中。
将模型训练多个epoch,每个epoch包含多个Step分步训练;其中,一个batch的数据进行一次训练的过程为一个Step,定义全部输入数据经过一次训练的过程为一个epoch。
在每个Step中,包括如下步骤:S1、在完成生成阶段获得了三组图像结果后,取解析度最大的一组,引入美观度评判模型对其进行美观度评判,获得这一组图像对应的美观度分数;S2、对该组图像中的多个美观度分数,分别计算其美学损失,最后取美学损失的平均值作为这一个batch的美学损失,记为Laes;S3、以LG+β·Laes为生成器新的损失,将其进行梯度回传,完成一个Step的训练流程,其中β为美学系数,LG为原始StackGAN++生成器的损失。
美观度评判模型给出的分数区间为[0,1]。
对于美观度评判模型给出的分数,如果超出区间范围则将其限定在最近的边界附近:大于等于1的情况下限定至0.9999,小于等于0的情况下限定至0.0001。
所述美学损失为:其美观度分数与上界值的欧几里得距离,即L2距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910464250.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子板书生成图片及PPT的方法
- 下一篇:一种面部表情模拟用模型
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序