[发明专利]一种基于适应性注意力机制的多模态的图像风格迁移方法有效

专利信息
申请号: 202010431594.7 申请日: 2020-05-20
公开(公告)号: CN111696027B 公开(公告)日: 2023-04-07
发明(设计)人: 程深;潘力立 申请(专利权)人: 电子科技大学
主分类号: G06T3/00 分类号: G06T3/00;G06N3/045;G06N3/0475;G06N3/0464;G06N3/047;G06N3/048;G06N3/094
代理公司: 电子科技大学专利中心 51203 代理人: 陈一鑫
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 适应性 注意力 机制 多模态 图像 风格 迁移 方法
【权利要求书】:

1.一种基于适应性注意力机制的多模态的图像风格迁移方法,该方法包括:

步骤1:对数据集进行预处理;

获取edges2shoes数据集,edges2shoes数据集是包含鞋子轮廓以及真实鞋子图片,总共49825个图片队;再对数据集进行分类,鞋子轮廓为一类,真实鞋子为另一类,随机打乱顺序处理;最后对图片像素值进行归一化至范围[-1,1];

步骤2:构建卷积神经网络和全连接神经网络;

1)构建卷积神经网络包括两个子网络,一个为生成器,另一个为判别器;生成器输入输出均为图片,而判别器输入为图片,输出为标量;生成器网络的前两层为2个下采样卷积块,之后接着9个残差网络块,最后再跟着2个上采样卷积块;判别器网络依次采用4个下采样卷积块,以及两个标准卷积块;

2)构建全连接网络输入大小为8维的向量表示维度,假设构建的卷积神经网络中生成器所有通道数目大小为L,全连接网络的输出包含两个部分,第一部为向量另一部分为向量其中K为步骤3中基的个数;而其总体包括两层大小均为128维的隐层,中间层使用Relu函数作为激活函数,输出层使用Tanh函数作为损失函数;

步骤3:构建适应性通道域EM注意力模块;对应混合高斯模型中的过程,设一张图片送入卷积神经网络中的生成器后,通过生成器中的卷积块输出得到的特征图为X,大小为C×H×W,其中C为通道数,H和W分别为特征图的高和宽;X是输入图片通过生成器中卷积块的激活函数后得到的;将X改变形状至C×N,其中N=H×W;表示第i个通道的N维向量;给定以及通过正态分布随机采样,初始化一组由K个基向量组成的矩阵其中K<N;则步骤3分为以下三个小步骤进行;第一步是估计隐藏变量第二步是利用第一步估计的结果来更新基向量矩阵M;第一步和第二步循环迭代直至μ和Z收敛;第三步是利用M和Z来重构X,并利用步骤2中得到的S来对M进行乘法运算;

步骤3.1:估计隐藏变量这一步是计算每一个基对每一个通道的负责程度,即每个通道属于每个基的可能性;zck表示的是μ中第k个基对第c个通道xc的权值,其中1≤k≤K且1≤c≤C;构建条件于μk的xc的后验概率分布如下:

其中表示的是广义核函数;则zck用如下公式进行计算:

核函数选择的形式,则对于第t次迭代,隐藏变量Z采用下面的公式进行计算:

Z(t)=softmax(X(M(t-1))T)

步骤3.2:对于第t次迭代,通过对X的加权求和,基向量的更新表示成:

步骤3.3:步骤3.1和步骤3.2交替执行T次之后,进行步骤3.3,用M和Z来重构X,并利用步骤2中得到的S来对μ进行乘法运算;对于步骤2中的得到的S,其长度为K,与基μ的个数相等;则最终利用如下公式来进行X的重构:

步骤4:总神经网络;

将步骤3中的适应性通道域EM注意力模块嵌入到步骤2中的生成器当中,总共在3个不同之处嵌入;第一处在第二层下采样卷积块后第一个残差网络块之前,第二处在第5个残差网络块的位置替换,第三处在最后一个残差网络块之后第一个上采样卷积块之前嵌入;全连接神经网络的输出中的特征图控制编码d乘入生成器中的所有卷积层的输出,而基控制编码S乘入步骤3中得到的适应性通道域EM注意力模块中的基M;生成器的输出作为判别器的输入,判别器的输出为总神经网络的输出;

步骤5:设计损失函数;

在步骤1中获取到的图片,记鞋子轮廓类别图片为IA,真实鞋子图片为IB;并对正态分布进行随机采样得到向量v,步骤2中的生成器以及全连接网络一起记为G,判别器记为D;G中的生成器输入为IA,全连接网络的输入为v,两者共同作用并将输出记为G(IA,v);判别器的输入为IB和G(IA,v),它们的输出分别记为D(IB)和D(G(IA,v));则网络损失描述为:

为判别器的损失函数,为生成器的损失函数;分别表示对(IA,v)和IB求期望;

步骤6:训练总神经网络,利用步骤5构建的损失函数进行网络训练,在更新G时固定D的参数,而更新D是则固定G的参数,每次迭代交替更新一次;

步骤7:测试阶段,在步骤6中训练好模型,只取网络G部分;给定一张输入图片IA,以及不同的正态分布样本v,得到多张不同风格的输出图片。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010431594.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top