[发明专利]一种基于生成语义分割图的文本改写图片方法有效
| 申请号: | 201911181726.9 | 申请日: | 2019-11-27 |
| 公开(公告)号: | CN110956579B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 印鉴;周晨星 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06T3/00 | 分类号: | G06T3/00;G06T7/11;G06T5/50;G06F40/211;G06F40/279 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 语义 分割 文本 改写 图片 方法 | ||
1.一种基于生成语义分割图的文本改写图片方法,其特征在于,包括以下步骤:
S1:建立生成输入图片的语义分割图模型G,语义分割图的特征抽取器T以及生成文本语义信息的双向编码器LSTM网络;所述步骤S1的具体过程是:
S11:预定义20个标签,包括头发,脸部,上衣,其目标就是对输入图片的每个像素点进行分类,若输入图片用矩阵表示为[height,width,channel],则输出图片表示为[height,width];
S12:对身体部分进行缩放使其变得模糊,经过这样的特征抽取后将它们的表示拼接在一起构成一个[height,width,3]的语义分割特征矩阵;
S13:输入文本首先通过word2vec工具将每个词用一个低维,稠密的实数向量进行表示,于是整个句子可以表示成X=[x1,…,xt, …,xn],其中n为句子长度,向量矩阵X的维度为300维,为了让模型学习句子的每个词上下文信息,用一个双向LSTM去学习句子的上下文信息,设每一个词表示一个时间步t,每个LSTM单元的输入为当前t时刻的词向量xt以及t-1时刻的LSTM细胞隐层输出hft-1,根据此可以得到前向LSTM的表示为Hf=[hf1,…,hft, …hfn],同理,后向LSTM的表示为Hb=[hb1,…,hbt, …hbn],最后将hfn与hb1拼接在一起作为文本的语义特征表示;
S2:构建resnet1网络,将S1中生成的语义分割特征和文本语义特征输入该网络中通过GAN训练方法生成修改图片的语义分割图P;
S3:构建resnet2网络,将S2中生成的语义分割图P和S1中生成的文本语义特征输入该网络中通过GAN训练方法生成修改图片。
2.根据权利要求1所述的基于生成语义分割图的文本改写图片方法,其特征在于,所述步骤S2的具体过程是:
S21:在S12中获得了输入图片语义分割图的头部,脸部和身体部分的特征,为了将其与S13获得的文本语义特征进行联合学习,需要将它们进行拼接,由于图片的特征是[height,width,3],而文本的特征是[hfn;hb1],在拼接之前需要对文本的特征进行扩充,使其特征维度变成[height,width,hfn;hb1],然后拼接之后总体特征维度是[height,width,3+hfn+hb1];
S22:本阶段需要通过S21得到的语义分割图特征和文本语义特征生成新的语义分割图,这个任务与pix2pix模型很相近,因此,沿用其中的resnet网络作为生成器,称之为resnet1网络,该网络结构类似于编码器解码器结构,主要包含两个部分,特征提取部分即编码器,上采样部分即解码器,特征提取部分使用卷积操作和池化操作对输入的语义分割图特征以及文本语义特征进行特征提取,而上采样部分使用转置卷积和特征提取部分对应的通道数相同尺度进行融合,从而生成出一个新的语义分割图;
S23:为了达到的目标,采用对抗训练的思想,首先设计了一个用来判断输入语义分割图是真是假的判别器,该判别器的设计是由一堆卷积层加上最后两层全连接层构成,判别器的输出是一个二分类的概率值,判别器的目标是尽可能区分输入语义分割图的真假,生成器的目标是经过S22生成出来的语义分割图在经过判别器时让判别器无法判断其真假,并且为了让生成器更好的学习,加上一个解析损失,该损失是对真实的语义分割图和生成的语义分割图的每一个像素点进行一个交叉熵的运算,通过降低该解析损失的值去指导生成器的语义分割图的生成,经过多轮训练得到的生成器resnet1具有生成目标图片语义分割图的功能;
S24:在训练过程中,设置解析损失的权重为0.01,每个关于衣服描述的句子长度限制在10以内,使用ADAM优化器对网络结构进行优化,并且对判别器和生成器resnet1进行交替训练,训练完成后保存生成器resnet1的参数方便在测试阶段进行使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911181726.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:接口测试方法及装置
- 下一篇:一种基于日志的系统故障预测方法、装置和设备





