[发明专利]一种基于改进版文本解析器的文本至图像生成算法在审
| 申请号: | 202210560027.0 | 申请日: | 2022-05-23 |
| 公开(公告)号: | CN115018941A | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 盛昳媛;许圣;赖越;叶子旺;刘秀平 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06F40/30;G06F16/35;G06K9/62;G06F40/205;G06N3/04;G06N3/08 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 戴风友 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 文本 解析 图像 生成 算法 | ||
本发明属于计算机视觉技术领域,具体涉及一种基于改进版文本解析器的文本至图像生成算法。本发明是一种端到端从文本到图像的生成器,它可以解析文本,提取出主、谓、宾三元组,从而生成符合文本描述的布局图,最终依据布局生成图像。本发明标注词性,识别文本并提取出文本中(主、谓、宾)三元组,然后通过人工分类网络及学习出来的关系自动分类网络进行6种几何映射,从而依据最终三元组生成符合文本描述的布局图。基于语义表达的多样性,我们的映射关系是一对多而非一对一的,如此得到的布局图也具有多样性。最后我们从布局图得到复杂场景,并融合了风格迁移,可生成具有特殊风格的图像。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于改进版文本解析器的文本至图像生成算法。
背景技术
图像生成相关背景:目前,人工智能领域的发展备受人们的关注。在计算机视觉领域,深度学习已经在图像识别、图像分类、图像分割以及图像的语义描述等方向大放异彩,并展现出优秀性能。然而时至今日,图像生成问题仍是一项艰巨的挑战,尤其是由文本到图像这种跨模态生成的任务。按照生成对象的不同,该任务具体可以分成单目标物体图像生成与多目标复杂场景图像生成两种,前者任务将着重生成高质量具有丰富细节的单独物体,而后者任务则针对多个物体的生成,且不同物体之间具有多样关系,属于更复杂更具挑战性的任务。因此,本专利主要针对于多目标的复杂场景图像生成,设计了有效的文本解析器,以提升图像生成性能。
文本至图像相关背景:文本至场景图像生成,需要模型从文本中提取有用信息,进而辅助场景图像的生成,然而现有多数方法主要存在以下几个问题:(1)文本描述内存在介词、系动词等冗余信息,为文本信息的提取增加了难度;(2)模型缺乏对于文本内物体交互关系的理解,导致可能出现场景布局不合理的情况;(3)高质量的文本特征提取网络体系较为庞大,训练流程较为复杂;(4)现有工作多聚焦于图像质量的提升,缺乏针对生成图像的场景布局多样化的探索。综上所述,如何从复杂文本中提取简要的语义信息已成为文本至图像生成方向所面临的重要挑战。
基线方法相关背景:2018年,Johnson等人提出了场景图至图像生成算法,通过能够反映物体间语义关系的结构化场景图,实现了复杂场景的生成,该方法同时补充说明了,能够使用Stanford句法分析器,较为简洁地实现文本语义信息的提取,然而,该句法分析器在实际应用中,无法针对复杂文本实现较好分析,导致语义结构存在误差。2019年Wei Sun,Tianfu Wu提出了LostGANs,实现了由可重构布局和样式对图像进行处理优化;2016年Justin Johnson,Alexandre Alahi,Li Fei-Fei提出了Real-Time Style Transfer,实现了快速且高分辨率的风格转换。基于此,本发明设计了面向复杂关系词汇的文本解析器,将文本自动转化为场景图,搭建了文本至图像生成过程的信息转化桥梁。
网络设计相关背景:该发明所涉及的文本解析器中,基于LSTM(长短时记忆网络)与MLP(多层感知机)实现了语义类关系至几何关系的映射。具体而言,上述两种网络均属于神经网络。神经网络最开始是受生物神经系统的启发,为了模拟生物神经系统而出现的,由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化,对权值进行调整,改善系统的行为,自动学习到一个能够解决问题的模型。
LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式,有效地解决多层神经网络训练的梯度消失和梯度爆炸问题,能够处理长时时间依赖序列。LSTM网络由LSTM单元组成,LSTM单元由输入门,输出门和遗忘门组成。
MLP(多层感知机)由PLA(感知机)推广而来。它最主要的特点是有多个神经元层,因此也叫DNN(深度神经网络)。其具有输入层,一些中间层和输出层。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210560027.0/2.html,转载请声明来源钻瓜专利网。





