[发明专利]图像生成模型的训练方法和设备以及图像生成方法和设备在审
| 申请号: | 202110966233.7 | 申请日: | 2021-08-23 |
| 公开(公告)号: | CN113590800A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 牛天睿;冯方向;王小捷;袁彩霞 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/583;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 孙清然;王琦 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 生成 模型 训练 方法 设备 以及 | ||
本申请公开了一种图像生成模型的训练方法和设备以及图像生成方法和设备,其中方法包括:获取对话样本数据,所述对话样本数据包括对话文本数据、标准图像、图像描述文本和对话总轮数;基于所述对话样本数据,采用随机重放训练的方式,利用所述对话样本数据和预先训练的异构循环神经网络编码器,对交互式递增图像生成模型进行训练,以使所述交互式递增图像模型能够基于人机对话文本和图像描述文本生成具有交互递增性的图像;其中,利用在对话的最终时刻获得的所有对话文本数据以及在对话的中间时刻获得的所有对话文本数据,进行所述训练。采用本申请,有利于合理地实现对话到图像生成任务。
技术领域
本发明涉及人工智能技术,特别是涉及一种图像生成模型的训练方法和设备以及图像生成方法和设备。
背景技术
对话是人与人交流的最自然的方式,在文本到图像生成任务中以对话的形式控制机器产生图像,也是一种较为理想的交互方式。对话是一种自由的交互过程:对于一句话内难以述说清楚的事情,可以通过增补对话轮次来补全,且主题不限。
对于对话到图像生成任务而言,为了提高人机对话的智能性,需要机器在每一轮对话结束后都生成图像并显示,以作为对人的及时反馈,而不仅是在整个对话结束之后产生图像。
发明人在实现本申请的过程中,通过研究分析发现:在每轮对话结束后,直接利用现有的文本到图像生成方法生成图像,无法合理地实现对话到图像生成任务,具体原因如下:
由于对话过程中,人输入的信息会随着对话的进行而递增,相应地,为了确保对话到图像生成的合理性和智能化,对于每一轮对话后机器产生的每帧图像,其包含的信息也应是递增的,该特性称为图像的“递增性”。这样,在理想情况下,对话到图像生成过程应以一张空白画布开始,并在每一轮对话结束后,由机器递增式地增补信息。机器不应在对话刚开始时就画好了一张包含了大量物体的复杂的图像,以避免向人传达错误的反馈。每一轮对话后生成的图像,其内容应该“刚好涵盖当前对话过程的所有信息”,不多不少。同时,后面生成的图像在结构上不应有巨大的改变,以维持对话的连贯性。抽象地,“递增性”要求包含如下几个方面:
物体数量递增性:物体数量随对话过程单调递增,并与对话实际涉及的物体数量相等,不可多于或少于对话涉及的物体数量。
属性与关系递增性:物体的属性与关系随着对话过程逐步确定,且可被记忆:在对话后期产生的图像中,不可丢失对话前期确立的属性与关系。
前后连贯性:对话中相邻轮次下生成的图像,在结构上应该是相似的。图像在对话过程中发生的巨大变动,是一种影响对话者体验的错误反馈。
虽然对话过程信息量天然是递增的,但由此产生的图像内容未必如此。因为,在文本到图像生成任务的实现方案中,图像模态与文本模态是不对等的,图像中包含的信息远大于文本模态,文本只能控制图像中的小部分信息,而另一部分图像信息(即图像特定信息)是由机器随机生成的,这就为图像信息带来了不确定性。由于图像特定信息的不确定性,使得信息量较多的文本产生的图像所包含的信息量可能比信息量较少的文本产生图像的信息量更少。这样,在每轮对话结束后,基于当前已获取的对话文本生成图像,就无法保证图像中的信息随着对话轮次的增加而增加,从而无法上述对话到图像生成任务的“递增性”要求,进而无法合理地实现对话到图像生成任务。
发明内容
有鉴于此,本发明的主要目的在于提供一种编码器和图像生成模型的训练方法及图像生成方法和装置,有利于合理地实现对话到图像生成任务。
为了达到上述目的,本发明实施例提出的技术方案为:
一种交互式递增图像生成模型的训练方法,包括:
获取对话样本数据,所述对话样本数据包括对话文本数据、标准图像、图像描述文本和对话总轮数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110966233.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





