[发明专利]基于跨模态相似度和生成对抗网络的文本生成图像方法有效
| 申请号: | 201910635075.X | 申请日: | 2019-07-15 |
| 公开(公告)号: | CN110490946B | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 赵生捷;缪楠;史清江;张林 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06V10/74;G06V10/75;G06F40/30;G06F40/289;G06V10/82;G06N3/0464;G06N3/0442;G06N3/045;G06N3/0475;G06N3/094 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 跨模态 相似 生成 对抗 网络 文本 图像 方法 | ||
1.一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,包括:
步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,所述全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示;
步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;
步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;
步骤S4:利用Fca条件增强模块将待处理文本的文本表示转换为条件向量;
步骤S5:将条件向量输入生成器得到生成的图像;
对于全局表示:
每个输入图像被调整为299×299的大小,然后被送入卷积神经网络,获得一个高级的全局视觉特征;
使用递归神经网络来处理文本数据,所述递归神经网络为双向LSTM模型来,所述双向LSTM模型抽取语义向量,在双向LSTM模型中,每个单词对应两个潜在状态,串联这两个潜在状态来表示每个单词的语义信息;
对于局部表示:
每个图像被送入基于VGG-16的Fater R-CNN模型,得到多个边界框,将边界框中的图像从原图中裁出,并当作单个子图像处理,送入卷积神经网络得到各单个子图像的全局表示,并将所有单个子图像的全局表示组合得到图像的局部表示;
分解文本得到多个单词,利用双向LSTM和注意力机制得到文本的局部表示;
所述卷积神经网络是基于Inception-v3网络设计的,并使用Inception-v3最后的平均池化层结果作为图像的全局表示;
所述文本的局部表示为:
其中:lt为文本t的局部表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量;
所述文本的关系表示为:
其中:rt为文本t的关系表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量;
所述步骤S1中的训练过程中,总损失函数为:
其中:为总损失函数,为全局表示匹配的损失函数,λg为全局表示匹配的权重,为局部表示匹配的损失函数,λl为局部表示匹配的权重,为关系表示匹配的损失函数,λr为关系表示匹配的权重;
所述全局表示匹配的损失函数为:
其中:为局部表示匹配的损失函数,N是样本数量,为匹配图像,为匹配文本,为不匹配文本,为使用匹配文本图像对和匹配图像但不匹配文本的不匹配文本图像对的损失函数,为使用匹配文本图像对和不匹配图像但匹配文本的不匹配文本图像对的损失函数,α表示边际向量,d(·)为点乘计算,表示全局表示的匹配对,和是全局表示的不匹配对;
所述局部表示匹配的损失函数为:
其中:为局部表示匹配的损失函数,K为最近邻的个数,为局部表示的匹配对,为局部表示的不匹配对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910635075.X/1.html,转载请声明来源钻瓜专利网。





